第一章:模型的哲学——我们如何在数据中寻找规律?

在深入任何具体模型前,必须理解所有机器学习模型的共同本质

模型是一个函数近似器。 它的任务是找到一个函数 f,使得 y=f(x) 能够最好地映射输入数据 x(如图像像素、文本词汇)到输出 y(如“猫”、积极情感)。

这个“寻找”过程的核心是优化——通过最小化一个损失函数 来调整模型参数,使预测 f(x) 无限接近真实 y。

模型的两种核心哲学思想:

  1. 判别模型:学习类别之间的决策边界。它直接对 P(y∣x) 进行建模,即给定输入 x,输出是 y 的概率。它关心的是“如何区分”

    • 例子:逻辑回归、CNN、Transformer。

  2. 生成模型:学习整个数据的联合概率分布 P(x,y)。它不仅可以区分类别,还可以生成新的数据样本。它关心的是“数据是如何产生的”

    • 例子:GAN、扩散模型、语言模型(本质上是生成文本的模型)。


第二章:传统机器学习模型——精巧的手工工具

这些模型依赖于精心设计的特征工程,模型本身更注重统计规律和数学优化。

1. 线性模型:世界的基石
  • 本质:假设数据背后的规律是线性的,通过一个超平面来划分数据空间。

  • 核心思想

    • 线性组合:y=w1x1+w2x2+...+b。权重 ww 代表了每个特征的重要性。

    • 梯度下降:通过计算损失函数关于权重的梯度(导数),沿着梯度反方向(即下降最快的方向)一步步更新权重,找到山谷(最小损失点)。

  • 数学深度

    • 线性回归的损失函数是均方误差,其解可以通过正规方程 直接求得。

    • 逻辑回归的损失函数是交叉熵,它衡量的是两个概率分布之间的差异。

  • 应用场景

    • 金融:信用评分(逻辑回归)。

    • 经济学:预测GDP增长与失业率的关系(线性回归)。

    • 任何领域的基线模型

2. 支持向量机(SVM):寻找最宽的街道
  • 本质:不仅仅要找到一个能分类的超平面,而是要找到那个间隔最宽的超平面,以实现最好的泛化能力。

  • 核心思想

    • 间隔最大化:关注于那些最难分的边界点(支持向量),它们决定了街道的宽度。

    • 核技巧:通过一个核函数,将低维不可分的数据映射到高维空间,使其变得线性可分。这相当于在三维空间中更容易用一个平面分开一团乱麻。

  • 应用场景

    • 文本分类:在高维的文本特征空间中,SVM表现优异。

    • 生物信息学:基因序列分类。

3. 决策树与集成方法:群众的智慧
  • 本质:通过一系列规则的提问,对数据进行层层划分。

  • 核心思想

    • 信息增益/基尼不纯度:决策树在每个节点选择那个能最纯净地划分数据的特征(即让子节点的类别尽可能一致)。

    • 集成学习

      • Bagging:通过Bootstrap有放回抽样生成多个训练子集,训练多个模型,然后综合结果(如取平均或投票)。核心是降低方差。代表是随机森林

      • Boosting:顺序地训练模型,每个新模型都更关注前一个模型分错的样本。核心是降低偏差。代表是梯度提升决策树,而 XGBoost 是其工程上最优秀的实现。

  • 应用场景

    • 任何表格数据:风控、推荐系统、医疗诊断。XGBoost常是这类问题的首选和基线。


第三章:深度学习基础模型——自动特征提取器

深度学习的关键在于表示学习——模型能够自动从原始数据中学习出有意义的特征表示,无需大量手工特征工程。

1. 卷积神经网络:空间结构的捕手
  • 本质:利用“局部连接”和“权重共享”的归纳偏置,高效处理网格状数据(如图像)。

  • 核心思想

    • 卷积层:多个卷积核充当不同的“模式检测器”(如边缘、颜色块)。

    • 池化层(如最大池化):进行下采样,在保留主要特征的同时减少数据量,增加平移不变性和感受野。

    • 全连接层:将学习到的高级特征映射到最终的输出(如分类概率)。

  • 架构演进

    • AlexNet:开启了深度学习时代。

    • VGG:证明了网络的深度至关重要。

    • ResNet:引入残差连接,解决了深度网络的梯度消失和退化问题,让网络可以做到极深。其思想 H(x)=F(x)+xH(x)=F(x)+x 影响了后续几乎所有深度模型。

  • 应用场景

    • 目标检测

      • 两阶段:R-CNN系列,先提候选区,再分类。精度高,速度慢。

      • 一阶段YOLO系列,将检测视为回归问题,直接在输出层预测框和类别。速度极快,适合实时场景

    • 图像分割

      • U-Net:编码器-解码器结构,通过跳跃连接融合高低层特征,特别适合医疗影像等需要精细轮廓的任务。

2. 循环神经网络:时间序列的记忆者
  • 本质:通过循环连接的隐藏状态,赋予网络“记忆”过去信息的能力。

  • 核心思想

    • LSTM:通过三个门(输入门、遗忘门、输出门)来精细控制信息的流动、遗忘和输出。

    • GRU:LSTM的简化版,将输入门和遗忘门合并为更新门,参数更少,效果相当。

  • 应用场景

    • 机器翻译、语音识别、时间序列预测。虽在NLP领域被Transformer取代,但其“状态”思想仍在许多时序任务中应用。


第四章:Transformer与大语言模型——范式的革命

这是当前AI的核心,理解它至关重要。

1. Transformer:注意力即是全部
  • 本质:完全基于自注意力机制,摒弃了循环和卷积,实现了全局依赖和极致并行。

  • 核心思想

    • 自注意力:计算序列中每个token与所有其他token的关联权重。公式 Attention(Q,K,V)=softmax(QKTdk)V的本质是:根据QueryKey的相似度,对Value进行加权求和。

    • 缩放点积注意力:除以 dk​​ 是为了防止点积过大导致梯度消失。

    • 多头注意力:并行地进行多次自注意力计算,让模型同时关注来自不同“表示子空间”的信息。

  • 架构:编码器-解码器结构。但现代大模型多采用仅解码器 架构。

2. 大语言模型:基于Transformer的智能涌现
  • 本质:在海量文本数据上训练出的、拥有巨量参数的自回归生成模型。其核心任务是预测下一个词

  • 为什么能“智能”?

    1. 缩放定律:模型规模、数据规模和计算规模同步扩大时,模型性能会平滑提升,并涌现出在小模型上没有的能力(如推理、编程)。

    2. 指令微调:使用指令数据对预训练模型进行微调,使其能遵循人类指令。

    3. 人类反馈强化学习:让模型的输出更符合人类的价值观和偏好。

  • 代表模型

    • GPT系列:生成式预训练Transformer,仅解码器架构的标杆。

    • LLaMA系列:Meta的开源模型,催生了繁荣的开源生态。

  • 应用场景:已从NLP扩展到通用人工智能的各个方面。


第五章:生成式AI——从理解到创造

1. 生成对抗网络:左右互搏的艺术
  • 本质:一个极小极大博弈过程。生成器 G 和判别器 D 在对抗中共同进化。

  • 目标函数:min⁡Gmax⁡DV(D,G)=Ex∼pdata(x)[log⁡D(x)]+Ez∼pz(z)[log⁡(1−D(G(z)))]

  • 训练动态:判别器努力最大化 D(x)(判真)和最小化 D(G(z))(判假);生成器努力最大化 D(G(z))(以假乱真)。

  • 挑战:训练不稳定,容易发生模式崩溃

2. 扩散模型:从混沌中创世
  • 本质:一个受热力学启发的逐步去噪过程。

  • 两个核心过程

    1. 前向过程:在 T 步内,对一张图像逐步添加高斯噪声,直到变成纯噪声。这是一个固定的马尔可夫链。

    2. 反向过程:训练一个神经网络(通常是U-Net),学习如何从 xt​ 和步数 t 预测出所添加的噪声 ϵ,然后一步步执行 xt−1=f(xt,ϵ)。

  • 为什么成功:训练目标(预测噪声)明确且稳定,生成质量高、多样性好。

  • 代表Stable Diffusion:在 latent space 进行扩散,极大降低了计算成本,推动了AIGC的普及。


终极总结与知识图谱

模型家族 核心思想 本质数学 王牌应用 地位
线性/树模型 统计规律,特征工程 梯度下降,信息论 表格数据,金融风控 基石
CNN 局部连接,权重共享 卷积运算,残差学习 计算机视觉一切任务 空间特征提取之王
RNN/LSTM 时序状态,门控记忆 循环计算,门控函数 时间序列分析 时序建模先驱
Transformer 全局注意力,并行计算 自注意力,缩放点积 大语言模型,多模态 当今AI的基石
GAN 对抗博弈,极小极大 博弈论,概率分布 图像生成与编辑 生成式AI的开拓者
扩散模型 迭代去噪,变分推断 马尔可夫链,分数匹配 文生图,AIGC 生成式AI的现任王者

学习路径建议

  1. 掌握基础:亲手推导线性回归、逻辑回归、CNN的前向/反向传播。实现一个简单的神经网络。

  2. 深入核心:精读 《Attention Is All You Need》 论文,理解并编码实现一个Transformer的完整结构。这是你知识体系的分水岭。

  3. 拥抱前沿

    • 使用 Hugging Face 库熟练调用和微调预训练模型(如BERT, GPT-2, Stable Diffusion)。

    • 学习 LangChain 框架,构建基于LLM的AI应用。

    • 关注 LoRA 等高效微调技术。

  4. 建立直觉:在 Papers With Code 和 arXiv 上跟踪最新研究,但始终回归到对模型第一性原理的思考。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐