本节目标

  • 了解大模型发展的几个重要阶段
  • 知道什么是语言模型
  • 掌握语言模型的评估指标
  • 了解国内外主流大模型的差异
  • 熟悉通用大语言模型的评估任务

一、什么是语言模型

  • 核心目标用于计算一个词序列(句子、段落)出现概率的模型。

  • 通俗理解:判断一句话“是不是人话”——即计算一个句子出现的概率 P(s) 。

    • 例:
      • “中国的首都是北京” → 高概率
      • “中国的首都是深圳” → 低概率
  • 两种视角

    • 计算整个句子的概率;
    • 预测下一个词(Next Token Prediction)。


二、语言模型的发展历程(四个阶段)

1. 统计语言模型(N-gram)

用前N个词来预测下一个词

  • 基于马尔可夫假设:当前词只依赖前 N−1个词。
  • 常见类型:
    • 1-gram(Unigram):词独立,忽略上下文 ( 不常用 )
    • 2-gram(Bigram):依赖前1个词
    • 3-gram(Trigram):依赖前2个词 ( 实践中常用 )
  • 缺点
    • 参数空间爆炸(组合太多)
    • 数据稀疏(很多词对未在语料中出现 → 概率为0)

2. 神经语言模型(Neural LM)

  • 使用浅层神经网络(如前馈网络)建模。
  • 输入:将前 n−1个词(输入层)通过词表转化的词向量拼接,

经过一个tanh引入非线性(隐藏层)
输出:经过一个全连接层映射到词表上,输出每个词的 softmax 概率(输出层)

  • 优点
    • 词向量带来泛化能力,缓解数据稀疏
  • 缺点
    • 固定窗口长度,无法处理长距离依赖
    • 梯度消失,训练不稳定

3. 预训练语言模型(Pre-trained LM)

  • 核心架构:Transformer
  • 代表模型:BERT(Encode-only)、GPT(Decode-only)、T5(Encode-Decode)
  • 两阶段范式:
    1. 预训练:在海量无标注文本上训练(无监督)
    2. 微调(Fine-tuning):下游任务中使用预训练好的模型进行迁移学习
  • 优点
    • 强大的语义表示能力
    • 泛化好,减少过拟合
  • 缺点
    • 计算资源消耗大
    • 可解释性差

4. 大语言模型(Large Language Model, LLM)

  • 特征:超大规模参数 + 海量数据 + 扩展法则(Scaling Law)
    • 例:GPT-3(1750亿参数) vs GPT-2(17亿)
  • 关键突破
    • 涌现能力(Emergent Abilities):小模型不具备的能力(如上下文学习 ICL)
    • Few-shot / Zero-shot 能力
  • 优点
    • 强大生成能力(文本、多模态)
    • 具备推理、工具调用潜力
  • 挑战
    • 算力要求极高
    • 可能生成有害/偏见内容



三、语言模型的评估指标

1. BLEU

  • BLEU(Bilingual Evaluation Understudy)
  • 用途:机器翻译、文本生成质量评估
  • 原理:衡量生成文本(candidate)与参考文本(reference)的 n-gram 精确率
  • 公式要点
    • BLEU-N:基于 N-gram 匹配
    • 加权平均(通常 BLEU-1~4 各占 25%)
    • 引入**长度惩罚(BP)**防止过短输出
  • 注意:偏向精确率(Precision),可能高估重复内容

2. ROUGE

  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
  • 用途:自动摘要、问答生成
  • 原理:基于 召回率(Recall),看生成内容覆盖了多少参考内容
    • ROUGE-N:N-gram 召回率
    • ROUGE-L:最长公共子序列(LCS)
  • 与 BLEU 对比
    • BLEU → 精确率导向(生成内容有多少是对的)
    • ROUGE → 召回率导向(参考内容有多少被覆盖了)

3. PPL

  • PPL(Perplexity,困惑度)
  • 定义:度量一个概率分布或概率模型在预测样本的好坏程度
  • 公式:$ PPL(S)=P(w_1​,…,w_n​)^{−1/n} $
  • 解读
    • PPL 越小 → 模型越好(对真实句子赋予更高概率)
    • 常用于模型训练过程中的验证指标

四、通用大模型评估任务

五、国内外大模型的差异

六、本小节面试可能会出现的问题

Q1:什么是语言模型?
A:语言模型建模一个词序列出现的概率,核心任务是预测下一个词或判断句子是否合理。

Q2:N-gram 有什么缺点?
A:数据稀疏(很多组合未出现)、无法处理长距离依赖、参数爆炸。

Q3:BLEU 和 ROUGE 的区别?
A:BLEU 基于精确率(生成内容有多少匹配参考),ROUGE 基于召回率(参考内容有多少被覆盖)。

Q4:PPL(困惑度)越低越好吗?
A:是的,PPL 越低说明模型对真实文本的预测概率越高,性能越好。

Q5:MMLU 评测什么能力?
A:评测模型在 57 个学科上的跨领域知识和理解能力

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐