大模型的发展历程可划分为语言模型奠基期、神经语言模型崛起期、Transformer革命期和多模态融合期四个阶段,其技术演进如下:

一、语言模型奠基期(1950s-2012)

  1. 统计语言模型
    基于n-gram概率建模:
    P(wt∣w1:t−1)≈P(wt∣wt−n+1:t−1)P(w_t|w_{1:t-1}) \approx P(w_t|w_{t-n+1:t-1})P(wtw1:t1)P(wtwtn+1:t1)
    受限于维度灾难(Curse of Dimensionality),无法有效处理长距离依赖。

  2. 神经网络初探

    • 2003年Bengio提出神经概率语言模型(NPLM),首次用神经网络建模词序列概率
    • 2010年Collobert的Word2Vec前身模型,奠定分布式词向量基础

二、神经语言模型崛起期(2013-2017)

里程碑 核心技术 突破点
Word2Vec (2013) Skip-gram/CBOW 高效词向量训练:vking−vman+vwoman≈vqueenv_{king} - v_{man} + v_{woman} \approx v_{queen}vkingvman+vwomanvqueen
GloVe (2014) 全局词共现矩阵分解 融合全局统计信息
ELMo (2018) 双向LSTM 动态上下文词表示

此时模型参数量在百万级(10⁶),但特征表示能力有限,无法建模深层语义。

三、Transformer革命期(2017-2020)

  1. 架构突破
    2017年Vaswani提出Transformer
    Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dk QKT)V
    自注意力机制彻底解决长程依赖问题。

  2. 预训练范式确立

    • BERT (2018):掩码语言建模(MLM)
      LMLM=∑i∈Mlog⁡P(xi∣x\i) \mathcal{L}_{MLM} = \sum_{i \in \mathcal{M}} \log P(x_i | \mathbf{x}_{\backslash i}) LMLM=iMlogP(xix\i)
    • GPT系列:自回归语言建模
      P(x)=∏t=1TP(xt∣x<t) P(\mathbf{x}) = \prod_{t=1}^T P(x_t | x_{<t}) P(x)=t=1TP(xtx<t)
  3. 规模跃迁

    模型 参数量 训练数据量
    GPT-1 (2018) 1.17亿 5GB
    GPT-2 (2019) 15亿 40GB
    GPT-3 (2020) 1750亿 570GB

四、多模态融合期(2021至今)

  1. 跨模态对齐技术

    • CLIP (2021):图文对比学习
      L=−log⁡exp⁡(sim(I,T)/τ)∑k=1Nexp⁡(sim(I,Tk)/τ) \mathcal{L} = -\log \frac{\exp(\text{sim}(I,T)/\tau)}{\sum_{k=1}^N \exp(\text{sim}(I,T_k)/\tau)} L=logk=1Nexp(sim(I,Tk)/τ)exp(sim(I,T)/τ)
    • ALIGN:十亿级噪声数据训练
  2. 生成式多模态突破

    • DALL·E 2 (2022):扩散模型生成图像
      pθ(x0:T)=p(xT)∏t=1Tpθ(xt−1∣xt) p_\theta(\mathbf{x}_{0:T}) = p(\mathbf{x}_T) \prod_{t=1}^T p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t) pθ(x0:T)=p(xT)t=1Tpθ(xt1xt)
    • Flamingo (2022):门控交叉注意力机制实现交错多模态输入
  3. 统一架构演进

    • PaLM-E (2023):5620亿参数,具身智能推理
      A=fθ(V,L,S) \mathcal{A} = f_{\theta}(\mathcal{V}, \mathcal{L}, \mathcal{S}) A=fθ(V,L,S)
    • GPT-4V:视觉指令微调实现图文联合推理

五、技术挑战与趋势

  1. 三大约束

    • 计算瓶颈:千亿模型单次训练耗电≈130吨煤当量
    • 数据荒:高质量多模态数据增长率<模型需求增速
    • 安全对齐:多模态幻觉问题 Phallucinate∝modality gapP_{\text{hallucinate}} \propto \text{modality gap}Phallucinatemodality gap
  2. 前沿方向

    • 神经压缩:学习率 $ \eta $ 与梯度噪声的平衡优化
    • 模块化架构:MoE路由机制
      g(x)=∑i=1nG(x)iEi(x) g(x) = \sum_{i=1}^n G(x)_i E_i(x) g(x)=i=1nG(x)iEi(x)
    • 具身智能:世界模型 M:(st,at)↦st+1 \mathcal{M} : (s_t,a_t) \mapsto s_{t+1} M:(st,at)st+1

从词向量到多模态认知,大模型正经历从感知智能(CLIP)→生成智能(Stable Diffusion)→推理智能(Gemini)的范式跃迁。未来突破将依赖计算范式革新(如光子芯片)与认知架构创新(如神经符号系统)。

此演进路径表明:模型能力=规模×架构×数据²,而多模态融合正推动AGI从专用弱人工智能向通用强人工智能跨越。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐