神经网络本身只是一个函数逼近器,它能做什么,完全取决于训练方式训练信号目标函数


1. 训练方式决定神经网络用途

  • 如果用有监督学习的方式训练(输入 + 明确标签 + 最小化损失),它就会变成一个分类器回归模型
  • 如果用强化学习的方式训练(输入 + 动作概率分布 + 环境奖励 + 最大化长期回报),它就会变成一个智能体策略网络
  • 如果用无监督学习(输入 + 重构或特征提取目标),它可能是一个特征提取器生成模型等。

2. 同一个网络,不同任务

比如一个简单的两层神经网络:

y=fθ(x) y = f_\theta(x) y=fθ(x)

  • 回归任务
    数据:(x,ytrue)(x, y_{\text{true}})(x,ytrue)
    目标(平方差):

    min⁡θ∥y−ytrue∥2 \min_\theta \|y - y_{\text{true}}\|^2 θminyytrue2

  • 分类任务
    数据:(x,label)(x, \text{label})(x,label)
    目标(交叉熵):

    min⁡θ−∑label⋅log⁡(softmax(y)) \min_\theta -\sum \text{label} \cdot \log(\text{softmax}(y)) θminlabellog(softmax(y))

  • 强化学习策略
    数据:状态 sss、动作 aaa、奖励 rrr(来自环境)
    目标(策略梯度/PPO):

    max⁡θEπθ[∑tγtrt] \max_\theta \mathbb{E}_{\pi_\theta} \left[ \sum_t \gamma^t r_t \right] θmaxEπθ[tγtrt]

结构上可能一模一样,但训练方式不同,功能就完全不一样。


3. 直观类比

  • 神经网络就像一个“FPGA”。

  • 你怎么训练它,就像你怎么教育一个人:

    • 给标准答案刷题 → 考试型选手(监督学习)
    • 让他玩游戏,通过输赢经验改进策略 → 职业玩家(强化学习)
    • 给他海量文章,让他自己找规律 → 研究型学者(无监督学习)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐