科普:深度学习的AI模型——从底层架构到生成模型
科普:深度学习的AI模型——从底层架构到生成框架
目录
1.1 全连接神经网络(Fully Connected Neural Network, FCNN)
1.2 CNN(卷积神经网络,Convolutional Neural Network)
1.4 循环神经网络(Recurrent Neural Network, RNN)
2.1 变分自编码器(Variational Autoencoder, VAE)
2.2 生成对抗网络(Generative Adversarial Network, GAN)
前言
人工智能(Artificial Intelligence, AI)已经成为当今社会不可或缺的重要助手。无论是润色一封信件的措辞,还是无人驾驶、文娱作品的创作,AI 已经深入到我们生活的方方面面。值得注意的是,AI 并不仅仅是“输入—神经网络—输出”这样简单的流程,它的背后存在着许多复杂而经典的框架,值得我们深入学习和理解。
从宏观上看,人工智能大致可以分为生成模型与判别模型等类型。不论是从底层架构,还是从训练方法来区分,不同的 AI 模型之间都有着显著的差异。本文将以科普的角度,对人工智能的分类及其核心概念作简要介绍,帮助读者快速把握这一领域的大体分支。
一. 神经网络底层架构
1.1 全连接神经网络(Fully Connected Neural Network, FCNN)
全连接神经网络是最基础、最直观的一类神经网络结构。顾名思义,在这种架构中,每一层的神经元都会与上一层的所有神经元相连接,每条连接都对应一个可学习的权重参数。因此,随着层数和神经元数量的增加,模型的参数量会迅速膨胀。
举一个简单的例子:如果我们希望用 FCNN 来识别手写数字图片,每张图片的大小是 28×28 像素,那么输入层就需要 784 个节点来表示像素强度。假设中间层(隐藏层)只有一层,包含 30 个神经元,输出层有 10 个神经元(对应数字 0–9),那么仅连接参数就需要:
可以看到,哪怕是这样一个非常小的网络,参数量也已经相当可观。随着任务复杂度和输入维度的增加,全连接神经网络的计算和存储开销会变得难以承受。
在应用上,FCNN 的输出通常是一个向量,例如分类任务中 10 个输出神经元的数值就代表输入属于各个类别的概率。虽然 FCNN 在表达能力上是“万能”的(理论上可以逼近任意函数),但在处理高维输入(如图像、文本)时效率极低。因此,后续出现了针对特定任务优化的架构,例如 卷积神经网络(CNN) 在图像处理上的突破,就是为了替代 FCNN 对高维空间的低效建模。
1.2 CNN(卷积神经网络,Convolutional Neural Network)
卷积神经网络是为了解决全连接神经网络在处理高维数据时参数量过大、计算效率低下的问题而提出的。它最大的特点是参数量远远少于 FCNN,却能在特征提取上展现出更强的能力,尤其适合处理图像、语音和序列数据。
CNN 的核心机制主要体现在以下两个方面:
(1)卷积核(Convolution Kernel)
卷积核可以看作是一个较小的“窗口”,在输入的图像或序列上滑动,逐步提取局部特征。卷积核中的参数并不是固定的,而是通过训练学习得到的。这样,网络不仅能捕捉边缘、纹理等低层次特征,还能通过多层堆叠逐渐抽象出更高层次的语义信息。例如,低层卷积可能识别“直线”,而高层卷积则可能识别“人脸”或“汽车”。
(2)池化层(Pooling Layer)
池化层的作用是对特征进行压缩和下采样,从而减少计算量,同时增强模型对输入的鲁棒性。直观地说,池化操作可以让模型“忽略一些不重要的细节”。举例来说,一张图片即使旋转了 10°,我们仍然能认出它;池化层正是帮助 CNN 对这种小范围的变化保持不敏感,避免模型过度放大无关的噪声。
总体来看,CNN 的出现使得神经网络能够高效地处理高维输入,并在计算机视觉等领域带来了突破性进展。相比 FCNN,它不仅在参数量上更经济,还能自动学习出层次化的特征表示,这也是为什么 CNN 成为了现代深度学习应用的基石之一。
1.3 Transformer
作为一种较新的神经网络架构,Transformer 的复杂性(尤其在理解上)要远远超过 FCNN 和 CNN。不过,它的核心思想其实可以用几个关键概念来概括:词嵌入(Embedding)和注意力机制(Attention)。
Transformer 首先会把输入数据(例如一段文本)转化为向量表示,这一步叫做词嵌入。这些向量不仅仅是“字词的编号”,而是能在数学空间里反映出词语之间的语义关系。比如,在嵌入空间中,“king - man + woman ≈ queen” 这样的关系会自然呈现。
接下来,Transformer 的真正“魔法”在于注意力机制。注意力机制的作用是:让模型在处理某个词时,能够“关注”到与之相关的其他词。比如在句子“The cat sat on the mat”中,模型在处理 “cat” 时,能够同时考虑 “sat” 和 “mat”,而不仅仅是前一个词。这种全局性的依赖建模,远比 RNN 的逐步处理或 CNN 的局部卷积要强大得多。
从结构上看,Transformer 通常由两个部分组成:编码器(Encoder)和解码器(Decoder)。编码器通过多层注意力和前馈网络,把输入序列转化为一系列高维向量,这些向量蕴含了丰富的上下文信息。解码器则利用这些信息生成输出,比如翻译结果、摘要甚至图像。值得一提的是,仅使用编码器的架构(如 BERT)在理解任务上表现极佳,而仅使用解码器的架构(如 GPT 系列)则在生成任务上独占鳌头。
总体而言,Transformer 的革命性突破就在于:它用注意力机制取代了传统的卷积或循环操作,让模型能够直接捕捉全局依赖。这一特性使它在自然语言处理、图像生成、蛋白质结构预测等多个领域引发了巨大的变革。
1.4 循环神经网络(Recurrent Neural Network, RNN)
在 CNN 解决了空间特征提取的问题之后,研究者们很快遇到了另一类挑战:如何高效处理序列数据。例如一段语音、一首乐曲或一句话,它们的含义不仅依赖于当前输入,还与前后顺序紧密相关。为了解决这一问题,循环神经网络(RNN)应运而生。
RNN 的核心思想是记忆:网络在处理当前输入时,会同时参考前一步的隐藏状态,把过去的信息带到现在。这意味着 RNN 在理论上可以捕捉任意长度的上下文关系,从而让模型能够理解“序列”这一特殊结构。
举个例子:在语言建模中,如果我们希望预测下一个词,当输入是 “I am going to the …” 时,RNN 不仅会读取当前词 “the”,还会利用之前的状态,意识到 “going to the” 很可能接 “park” 或 “store”。这种记忆机制让 RNN 特别适合自然语言处理、时间序列预测等任务。
不过,RNN 在实际应用中也存在严重局限:
-
梯度消失与爆炸:在长序列训练时,反向传播的梯度会逐步缩小或放大,导致模型很难捕捉远距离依赖。
-
训练效率低:RNN 需要一步步顺序处理,难以并行化,在大数据场景下速度受限。
为缓解这些问题,后来出现了 LSTM(长短期记忆网络) 和 GRU(门控循环单元) 等改进架构。它们通过“门机制”在一定程度上缓解了长距离依赖的问题,但仍无法完全克服训练瓶颈。
最终,Transformer 架构的提出才真正解决了序列建模的困境:它用注意力机制取代了循环结构,使得模型能够并行训练,同时捕捉长程依赖。这也是为什么在今天的主流应用中,RNN 已经逐渐被 Transformer 所取代。
注意到以上所有的网络架构都可以作为单独的一层出现在一个大的AI模型中,例如输入部分可以先用词嵌入+注意力做编码,然后使用卷积核读数据,经过一些中间层,最后连接一个全连接层,得到输出.
二.生成模型的类别
2.1 变分自编码器(Variational Autoencoder, VAE)
在生成模型的发展过程中,变分自编码器(VAE)是一个非常重要的里程碑。它的思想来源于自编码器,但在此基础上引入了概率建模的思想,使得模型不仅能学会压缩和重建数据,还能在潜在空间中形成一种平滑、连续的结构,从而具备生成全新样本的能力。
VAE 的基本结构仍然由编码器和解码器组成。编码器负责把输入数据映射到一个潜在空间,不过与普通自编码器不同,它不会给出一个固定点,而是给出一组分布参数,例如均值和方差。模型会从这个分布中采样一个隐变量,再交由解码器重建为接近原始输入的数据。解码器因此不仅要学会还原原图,还要在采样带来的不确定性下依然保持合理性。
训练 VAE 时,模型需要同时满足两个目标:一方面,生成的结果要尽可能接近原始输入,这是重建误差的要求;另一方面,隐变量的分布要尽量接近一个标准正态分布,以确保潜在空间有序而且可控。这一要求通过引入 KL 散度来实现。正是这两方面的结合,使得 VAE 能够在潜在空间中形成一种规则化的表达,方便进行插值和采样。
直观地理解,VAE 就像是一位会先打草稿再上色的画家。编码器相当于给出一张草图,但草图里带有一些模糊和不确定性;解码器则根据这张草图绘制出完整的作品。虽然生成的图像可能比 GAN 或 Diffusion 稍显模糊,但它们具备更强的可控性。我们可以在潜在空间里随意移动位置,甚至把两张不同图像的潜在表示融合在一起,从而生成介于两者之间的新图像。
这种潜在空间的可操作性让 VAE 在多个任务中都表现出价值。它可以被用来生成和插值图像,也能帮助我们学习数据的潜在结构,甚至在异常检测任务中,利用其潜在分布的规律来发现不符合常态的数据。虽然在生成质量上,VAE 后来被 GAN 和 Diffusion 模型超越,但它仍然是生成建模家族中不可或缺的一员。
2.2 生成对抗网络(Generative Adversarial Network, GAN)
在 VAE 之后,生成对抗网络(GAN)的提出为生成建模带来了另一种思路。与 VAE 强调概率分布和潜在空间的有序性不同,GAN 的核心在于引入一种博弈式的训练机制,让模型通过对抗不断改进生成效果。
GAN 由两个网络组成,一个是生成器,一个是判别器。生成器的任务是把随机噪声转化为尽可能逼真的样本,而判别器的任务则是分辨输入究竟来自真实数据还是来自生成器。在训练过程中,生成器会不断尝试“欺骗”判别器,而判别器则努力识破生成器的伎俩。随着博弈的进行,生成器被迫学会生产出越来越接近真实分布的样本。
这种对抗机制的最大魅力在于它不需要显式地定义概率分布或重建误差,而是通过竞争关系自动推动生成器向真实数据分布逼近。实践证明,GAN 可以生成极其逼真的图像,人们第一次看到由 GAN 生成的人脸照片时,往往会惊讶于它们与真实照片几乎难以区分。这一特性也让 GAN 在艺术创作、风格迁移、超分辨率重建等任务中迅速流行。
不过,GAN 并不是完美的。由于生成器和判别器之间的对抗关系过于微妙,训练过程往往非常不稳定,稍有不慎就会出现模式崩溃的现象,也就是生成器只会生成极少数几种样本,缺乏多样性。此外,GAN 缺乏像 VAE 那样清晰的潜在空间结构,这使得它在可解释性和可控性上显得不足。
尽管如此,GAN 在生成模型的历史上具有里程碑式的意义。它证明了对抗性学习在复杂分布建模中的强大潜力,并且为后来许多改进模型和应用奠定了基础。即便在今天,GAN 仍然在一些特定场景中保持竞争力,例如图像修复和高质量图像生成。但随着扩散模型的崛起,GAN 在主流生成任务中的地位逐渐被取代。
2.3 扩散模型(Diffusion Model)
在 GAN 掀起一阵热潮之后,研究者们仍然面临一个难题:如何在保持高质量生成的同时,解决训练不稳定和难以控制的问题。扩散模型的出现,为这一困境提供了全新的解法。它的灵感来自物理过程中的扩散现象:如果我们不断往一张图片里加入高斯噪声,最终它会完全变成随机噪声;而扩散模型的任务,正是学习如何一步步逆转这个过程,从纯噪声中逐渐恢复出一幅清晰的图像。
扩散模型的训练过程分为两个阶段。首先是正向扩散过程,也就是按照设定好的规则,逐步往数据里加噪声,直到数据完全丧失结构。这个过程是人为定义的,不需要模型学习。接下来是逆向去噪过程,模型需要学会在每一步尽可能预测并去除噪声,从而逐渐还原出原始数据。换句话说,训练的目标就是让模型成为一个“去噪专家”。
与 GAN 的对抗训练不同,扩散模型的损失函数非常简单,通常只需要预测噪声的均方误差。这样的设计让训练过程格外稳定,几乎不会出现模式崩溃。同时,扩散模型在生成阶段可以很自然地引入条件,例如文本描述、草图或者语音,从而实现灵活可控的生成。这种特性使得扩散模型在图像生成、语音合成甚至分子设计等领域都展现出了极高的潜力。
当然,扩散模型也有不足。它的生成过程是逐步迭代的,从纯噪声到清晰图像往往需要上百甚至上千步,因此生成速度远慢于一次性出结果的 GAN。不过,随着研究的进展,人们提出了诸如 DDIM、Latent Diffusion 等改进方法,大大减少了采样步骤,让扩散模型在实际应用中更加高效。
扩散模型的兴起标志着生成模型进入了一个新的阶段。从 VAE 到 GAN,再到 Diffusion,可以清楚地看到生成建模的思路逐步演化:从概率建模,到对抗博弈,再到模拟物理过程。如今,基于扩散模型的 Stable Diffusion、Imagen 等系统已经在全球范围内广泛使用,它们不仅刷新了生成质量的上限,也让 AI 在艺术创作与工业设计中走向了前所未有的高度。
结语
本文主要回顾了人工智能领域中最核心的一些概念。从底层架构的发展脉络,到生成模型的三大经典框架,可以看到深度学习在过去十余年间的演化逻辑:它既是计算方式的革新,也是思维范式的更替。FCNN、CNN、RNN 与 Transformer 让我们理解了不同网络结构在信息处理上的优势与局限,而 VAE、GAN 与 Diffusion 则展示了生成建模从概率分布到对抗博弈,再到物理过程模拟的丰富想象力。
不过,这只是人工智能世界的一个开端。在本文之外,还有大量内容没有展开。例如,在自然语言处理领域,BERT、GPT 等模型已经成为推动语言理解与生成的代表;在计算机视觉中,目标检测、图像分割和多模态学习都构成了独立而庞大的分支;在语音领域,语音识别与语音合成也不断推动人机交互的进步。除此之外,深度学习背后的数理基础、训练优化技巧,以及对大规模模型的对齐与控制,都是值得深入探讨的重要主题。
因此,今天所写下的只是一次学习过程中的阶段性记录。AI 的图景远比我们在此勾勒的要辽阔,它不仅是技术的集合,更是不断扩展的知识体系。希望在未来的学习中,能够继续把这些“未及之处”逐一补上,让整幅图景更加完整。
2025.9.1
更多推荐
所有评论(0)