深度学习:人工智能的核心驱动力

一、什么是深度学习

深度学习(Deep Learning)是机器学习的一个重要分支

核心是通过构建多层神经网络(深度神经网络) 模拟人类大脑的信息处理方式,从数据中自动学习特征和规律,最终实现对复杂任务的预测、分类或生成。

与传统的机器学习相比,深度学习能够自动从数据中提取特征,减少人工设计特征的工作量,并在语音识别、图像处理、自然语言处理等领域取得了突破性成果。

通俗来说,深度学习的本质是用多层非线性变换将原始数据映射到更高层次的抽象特征空间,从而让计算机更好地理解复杂问题。


二、深度学习的核心要素

1. 神经网络(Neural Network)

大脑中的神经元:

计算机中的神经元:

x1~xn这些外部信息,通过w1~wn这些突触,传入到神经元,神经元再传给其他神经元或输出。

怎样得到这样的神经元(推导):

  • 逻辑回归(Logistic Regression) 是神经网络的理论基础之一。

  • 逻辑回归模型的形式和 单层感知机(即由一个或多个神经元构成的最简单神经网络(没有隐藏层) 很相似:

    • 输入 → 权重加权求和 → 激活函数 → 输出概率。

  • 单层感知机与逻辑回归的主要不同在于激活函数

所以以逻辑回归为例,为了得到划分线

假设y=kx+b:

最终得到的结果可变换为矩阵形式即:

得到的神经元即可表达为:

 非线性函数sigmoid曲线(激活函数):

神经元(Neuron)神经网络的基本计算单元

神经元的作用:

输入 → 权重加和 → 激活函数 → 输出

训练神经网络所要得到的目标就是:最优参数权重Wi和偏置b(b在此神经元内即是w3)

而目前得到的 权重Wi和偏置b 并非最优

训练过程

  • 我们输入大量训练数据

  • 神经元根据当前的权重和偏置计算输出

  • 与真实标签比较(用损失函数)

  • 通过反向传播调整权重 wi 和偏置 b,让输出越来越接近真实标签。

整个神经网络:由很多神经元组成,层层堆叠,训练后形成能解决任务的模型。

每个节点代表一种特定的输出函数,称为激活函数(activation function)。

两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重

(中间绿色为神经元,两侧为输入输出)

1、设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定;

2、神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向,跟训练时的数据流有一定的区别;

3、结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。

节点该如何确定?

输入层的节点数:与特征的维度匹配

输出层的节点数:与目标的维度匹配。

中间层(隐藏层)的节点数:一般是根据经验来设置。预设几个可选值,通过切换这几个值来看整个模型的预测效果,选择效果最好的值作为最终选择。

层次结构:输入层 → 隐藏层 → 输出层。(深度学习的“深”就来自于隐藏层的数量)

每个隐藏层 = 由多个神经元组成的一层

  • 一个神经元是一个点,而一层通常包含几十、几百、甚至上千个神经元。

  • 每一层的神经元 并行计算,然后把结果传递给下一层。

作用:

  • 输入层:接收原始数据(像素、特征)。(对于图片,像素就是其特征)

  • 隐藏层:由许多神经元组成,负责特征提取和非线性变换。

  • 输出层:最终给出预测结果。


2.感知机(Perceptron)

单层感知机:

(输入层→ 输出层,无隐藏层)

用矩阵乘法来表达:

使用越阶函数等激活函数,本质上是一种线性分类器,只能解决线性可分问题。

解释:单层感知机的学习能力非常有限,对与像异或问题这样的线性不可分情形,单层感知机就搞不定(线性不可分即输入训练数据存在一个线性超平面能够将其进行线性分类

单层感知机即使使用非线性激活函数(如 Sigmoid、ReLU 等),仍然无法解决非线性可分问题,核心原因在于其网络结构的局限性,而非激活函数本身。“输入特征的线性组合” 是对输入的一次线性变换(即权重与输入的内积),而激活函数只是对这个线性结果进行 “非线性映射”。

多层感知器:

多层感知机(MLP)是最经典、最基础的神经网络结构

增加了隐藏层。隐藏层是神经网络可以做非线性分类的关键。

第一层的输出是对输入的 “非线性特征映射”(线性变换 + 激活函数)

第二层再对这些非线性特征进行线性组合 —— 最终的决策边界可以是曲线、曲面等非线性形式

假设我们的预测目标是一个向量,那么与前面类似,只需要在“输出层”再增加节点即可。


3. 激活函数(Activation Function)

激活函数是神经网络的“非线性开关”

其核心作用是为网络注入非线性能力,使模型能够学习和表示复杂的非线性关系。

常见类型

  • 阶跃函数:最简单的激活函数,输出只有 0 或 1。

  • Sigmoid:适合二分类问题,但存在梯度消失问题。

  • ReLU:训练速度快,广泛使用。

  • Softmax:常用于多分类输出层。

为什么需要激活函数

在神经元计算中:如果没有激活函数,整个网络就是线性函数的堆叠(多层线性还是线性),无法表示复杂关系。

激活函数的作用

  1. 引入非线性:让神经网络能够逼近任意复杂函数(通用逼近定理)。

  2. 增加表达能力:不同函数适合不同任务。

  3. 控制输出范围:比如 Sigmoid 把输出压缩到 (0,1),适合概率建模。


4. 损失函数(Loss Function)

损失函数的作用:使得参数尽可能的与真实的模型接近。

1、衡量预测效果

  • 如果损失值很小,说明预测结果和真实结果接近;

  • 如果损失值很大,说明预测结果和真实结果差得远。

2、指导参数更新

  • 训练神经网络时,目标是 最小化损失函数

  • 通过 梯度下降(Gradient Descent),我们利用损失函数对参数的梯度,更新神经元的权重和偏置。

3、防止过拟合 / 欠拟合

  • 一些损失函数里会引入 正则化惩罚项(比如 L1/L2 正则化),帮助模型防止过拟合:  通过在损失函数中加入 “正则项”(惩罚项),人为增加 “复杂模型” 的损失,迫使模型在 “拟合训练数据” 和 “保持自身简单” 之间做权衡

  • 损失函数 = 预测误差(如均方误差、交叉熵) + 正则项(模型复杂度惩罚)

在训练神经网络中的损失函数:

  1. 输入数据:外部信息xi(同时给所有参数赋上随机值。我们使用这些随机生成的参数值,来预测训练数据中的样本。)

  2. 前向传播:计算预测值

  3. 计算损失:用损失函数比较预测值​ 和真实标签 y

  4. 反向传播:根据损失函数的梯度更新权重 W,b (BP神经网络(Back-propagation,反向传播))

  5. 迭代优化,直到损失函数收敛

常用的损失函数

0-1损失函数

均方差损失(MSE)

平均绝对差损失

交叉熵损失(Cross Entropy)

合页损失


5. 优化算法(Optimization)

深度学习常用的优化方法是 梯度下降(Gradient Descent)

梯度可以定义为一个函数的全部偏导数构成的向量,梯度向量的方向即为函数值增长最快的方向

不断调整神经网络的参数(权重 W 和偏置 b),使得损失函数的值尽可能小。

本质:

  • 找到一个参数组合,使得损失函数 L(W,b) 达到最小值;

  • 梯度下降就是通过不断“往损失函数下降最快的方向走”,逐步接近最优解。


三、常见的深度学习模型

1. 卷积神经网络(CNN)

主要用于 图像识别与处理。CNN 通过卷积层和池化层自动提取图像的空间特征,典型应用有人脸识别、目标检测。

2. 循环神经网络(RNN)

擅长处理 序列数据,如时间序列预测、语音识别、机器翻译。其改进版本 LSTM、GRU 解决了长序列的梯度消失问题。

3. Transformer

近年来最火的模型架构,基于 自注意力机制(Self-Attention)。Transformer 是 ChatGPT、BERT 等自然语言处理模型的核心。


四、深度学习的应用领域

  1. 计算机视觉(CV)

    • 人脸识别

    • 自动驾驶(目标检测、车道检测)

    • 医学影像诊断

  2. 自然语言处理(NLP)

    • 智能翻译

    • 问答系统

    • 文本生成

  3. 语音处理

    • 语音识别(语音转文字)

    • 语音合成(智能助手发声)

  4. 推荐系统

    • 电商推荐

    • 视频内容推荐


五、深度学习的挑战

  1. 数据需求大:深度模型通常需要大量标注数据。

  2. 计算成本高:GPU/TPU 等硬件加速是训练大模型的关键。

  3. 可解释性差:模型常常被视为“黑箱”,难以解释其决策过程。

  4. 过拟合风险:如果模型太复杂而数据不足,容易只记住训练集而无法泛化。


六、未来发展趋势

  • 轻量化模型:移动端部署的需求推动模型压缩与蒸馏技术。

  • 多模态学习:同时理解文本、图像、语音等多种模态信息。

  • 可解释性研究:让模型的决策逻辑更透明。

  • 通用人工智能(AGI):深度学习将继续作为核心推动力,向更通用、更强大的智能发展。


七、总结

深度学习是人工智能领域的核心技术,它的成功源于 大数据、强计算力与新算法 的结合。从图像到语音,从文本到多模态,深度学习正在让计算机具备前所未有的感知和理解能力。尽管存在挑战,但它无疑是推动未来社会智能化的重要力量。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐