大模型的前世今生
大模型的前世今生
·
大模型的发展历程可划分为语言模型奠基期、神经语言模型崛起期、Transformer革命期和多模态融合期四个阶段,其技术演进如下:
一、语言模型奠基期(1950s-2012)
-
统计语言模型
基于n-gram概率建模:
P(wt∣w1:t−1)≈P(wt∣wt−n+1:t−1)P(w_t|w_{1:t-1}) \approx P(w_t|w_{t-n+1:t-1})P(wt∣w1:t−1)≈P(wt∣wt−n+1:t−1)
受限于维度灾难(Curse of Dimensionality),无法有效处理长距离依赖。 -
神经网络初探
- 2003年Bengio提出神经概率语言模型(NPLM),首次用神经网络建模词序列概率
- 2010年Collobert的Word2Vec前身模型,奠定分布式词向量基础
二、神经语言模型崛起期(2013-2017)
| 里程碑 | 核心技术 | 突破点 |
|---|---|---|
| Word2Vec (2013) | Skip-gram/CBOW | 高效词向量训练:vking−vman+vwoman≈vqueenv_{king} - v_{man} + v_{woman} \approx v_{queen}vking−vman+vwoman≈vqueen |
| GloVe (2014) | 全局词共现矩阵分解 | 融合全局统计信息 |
| ELMo (2018) | 双向LSTM | 动态上下文词表示 |
此时模型参数量在百万级(10⁶),但特征表示能力有限,无法建模深层语义。
三、Transformer革命期(2017-2020)
-
架构突破
2017年Vaswani提出Transformer:
Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQKT)V
自注意力机制彻底解决长程依赖问题。 -
预训练范式确立
- BERT (2018):掩码语言建模(MLM)
LMLM=∑i∈MlogP(xi∣x\i) \mathcal{L}_{MLM} = \sum_{i \in \mathcal{M}} \log P(x_i | \mathbf{x}_{\backslash i}) LMLM=i∈M∑logP(xi∣x\i) - GPT系列:自回归语言建模
P(x)=∏t=1TP(xt∣x<t) P(\mathbf{x}) = \prod_{t=1}^T P(x_t | x_{<t}) P(x)=t=1∏TP(xt∣x<t)
- BERT (2018):掩码语言建模(MLM)
-
规模跃迁
模型 参数量 训练数据量 GPT-1 (2018) 1.17亿 5GB GPT-2 (2019) 15亿 40GB GPT-3 (2020) 1750亿 570GB
四、多模态融合期(2021至今)
-
跨模态对齐技术
- CLIP (2021):图文对比学习
L=−logexp(sim(I,T)/τ)∑k=1Nexp(sim(I,Tk)/τ) \mathcal{L} = -\log \frac{\exp(\text{sim}(I,T)/\tau)}{\sum_{k=1}^N \exp(\text{sim}(I,T_k)/\tau)} L=−log∑k=1Nexp(sim(I,Tk)/τ)exp(sim(I,T)/τ) - ALIGN:十亿级噪声数据训练
- CLIP (2021):图文对比学习
-
生成式多模态突破
- DALL·E 2 (2022):扩散模型生成图像
pθ(x0:T)=p(xT)∏t=1Tpθ(xt−1∣xt) p_\theta(\mathbf{x}_{0:T}) = p(\mathbf{x}_T) \prod_{t=1}^T p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t) pθ(x0:T)=p(xT)t=1∏Tpθ(xt−1∣xt) - Flamingo (2022):门控交叉注意力机制实现交错多模态输入
- DALL·E 2 (2022):扩散模型生成图像
-
统一架构演进
- PaLM-E (2023):5620亿参数,具身智能推理
A=fθ(V,L,S) \mathcal{A} = f_{\theta}(\mathcal{V}, \mathcal{L}, \mathcal{S}) A=fθ(V,L,S) - GPT-4V:视觉指令微调实现图文联合推理
- PaLM-E (2023):5620亿参数,具身智能推理
五、技术挑战与趋势
-
三大约束
- 计算瓶颈:千亿模型单次训练耗电≈130吨煤当量
- 数据荒:高质量多模态数据增长率<模型需求增速
- 安全对齐:多模态幻觉问题 Phallucinate∝modality gapP_{\text{hallucinate}} \propto \text{modality gap}Phallucinate∝modality gap
-
前沿方向
- 神经压缩:学习率 $ \eta $ 与梯度噪声的平衡优化
- 模块化架构:MoE路由机制
g(x)=∑i=1nG(x)iEi(x) g(x) = \sum_{i=1}^n G(x)_i E_i(x) g(x)=i=1∑nG(x)iEi(x) - 具身智能:世界模型 M:(st,at)↦st+1 \mathcal{M} : (s_t,a_t) \mapsto s_{t+1} M:(st,at)↦st+1
从词向量到多模态认知,大模型正经历从感知智能(CLIP)→生成智能(Stable Diffusion)→推理智能(Gemini)的范式跃迁。未来突破将依赖计算范式革新(如光子芯片)与认知架构创新(如神经符号系统)。
此演进路径表明:模型能力=规模×架构×数据²,而多模态融合正推动AGI从专用弱人工智能向通用强人工智能跨越。
更多推荐


所有评论(0)