LLM主流开源大模型分类与特性

1. ChatGLM-6B模型
  • 简介:由清华大学开发的开源中英双语对话模型,基于GLM架构,参数量62亿。

  • 训练目标:通过自回归空白填充目标(完形填空式任务)训练模型重建被随机mask的连续文本片段。

  • 模型结构:

    • 改动点:

      改动项 描述
      Embedding层梯度缩减 将梯度缩小10倍,提升训练稳定性
      Deep Norm 基于残差连接的信号放大(α=(2N)1/4α=(2N)^{1/4}α=(2N)1/4
      激活函数 GeGLU(门控线性单元)
      位置编码 RoPE(旋转位置编码)
    • RoPE原理:

      • 将位置信息编码为Query和Key的旋转操作,通过复数域中的角度差异捕捉相对位置依赖。

      • 数学表达:对二维向量(x0,x1)(x_0,x_1)(x0,x1)在位置mmm的旋转操作为:

        x0′=x0cos⁡(θm)−x1sin⁡(θm)x_0^′=x_0cos⁡(θm)−x_1sin⁡(θm)x0=x0cos(θm)x1sin(θm)

        x1′=x0sin⁡(θm)+x1cos⁡(θm)x_1^′=x_0sin⁡(θm)+x_1cos⁡(θm)x1=x0sin(θm)+x1cos(θm)

  • 硬件要求:

    量化等级 最低GPU显存(推理) 最低GPU显存(微调)
    FP16 13GB 14GB
    INT8 10GB 11GB
    INT4 6GB 7GB
  • 迭代版本:

    版本 改进点
    ChatGLM2-6B 上下文长度从2K扩展到32K,推理速度提升42%,数学任务性能提升571%
    ChatGLM3-6B 支持多模态理解、代码生成和网络搜索增强

2. LLaMA模型
  • 简介:Meta AI开发的英文为主的开源模型,参数量从7B到65B。

  • 训练数据:1.4T token(65B版本),不含中文语料。

  • 模型结构:

    • 改动点:

      改动项 描述
      归一化 RMSNorm(去均值化)
      激活函数 SwiGLU(带门控的非线性)
      位置编码 RoPE
  • 衍生应用:

    模型 微调方式 特点
    Alpaca 52k英文指令数据微调 英文指令遵循能力强
    Vicuna ShareGPT对话数据微调 对话能力优化
    Chinese LLaMA 中文词表扩展(49953 token) 中文支持增强
  • 迭代版本:

    版本 改进点
    LLaMA 2 上下文长度扩展到4096,新增Chat版本(SFT+RLHF)
    LLaMA 3 词汇表扩大到128k,采用GQA提升推理效率,预训练数据增加到15T token

3. BLOOM模型
  • 简介:Hugging Face开发的多语言模型(支持46种语言+13种编程语言),最大参数量176B。

  • 训练数据:1.5TB文本,中文占比16.2%。

  • 模型结构:

    • 改动点:

      改动项 描述
      位置编码 ALiBi(相对位置编码)
      激活函数 GeLU(高斯误差线性单元)
      归一化 Pre Layer Norm + Embedding Layer Norm
  • 衍生应用:

    模型 应用场景 特点
    轩辕 金融领域预训练与微调 针对中文金融任务优化
    BELLE 中文指令微调 基于ChatGPT生成数据训练

4. Baichuan-7B模型
  • 简介:百川智能开发的中英双语开源模型,参数量70亿。

  • 训练数据:1.2T token,含中文互联网数据。

  • 模型结构:

    • 改动点:

      改动项 描述
      归一化 RMSNorm
      激活函数 SwiGLU
      位置编码 RoPE
  • 迭代版本:

    版本 改进点
    Baichuan-13B 参数量130亿,支持4096长度上下文,提供INT8/INT4量化版本

5. Qwen模型
  • 简介:阿里巴巴开发的大规模开源模型,参数量从18亿到720亿。

  • 模型结构:

    • 改动点:

      改动项 描述
      注意力机制 GQA(分组查询注意力)
      激活函数 SwiGLU
      位置编码 RoPE
  • 迭代版本:

    版本 改进点
    Qwen2.5 预训练数据增加到18T token,引入多阶段强化学习

6. DeepSeek模型
  • 简介:深度求索实验室开发的中文优化模型,参数量从67B到671B。

  • 核心创新:

    • MLA(多头潜在注意力机制):

      • 通过低秩分解压缩键值缓存,公式:

        ctKV=WDKVht,K=WUKctKV,V=WUVctKVc_t^{KV}=W^{DKV}h_t,K=W^{UK}c_t^{KV},V=W^{UV}c_t^{KV}ctKV=WDKVht,K=WUKctKV,V=WUVctKV

      • 缓存大小从 2ndl2ndl2ndl 降低到 2dcl2d_cl2dcl

    • MoE(混合专家系统):

      • 引入细粒度专家分割和共享专家隔离,减少冗余计算。
  • 迭代版本:

    版本 改进点
    DeepSeek V2 MLA提升推理效率,MoE提升训练效率
    DeepSeek V3 多token预测(MTP)提升长距离依赖建模,成本降低至557.6万美元
    DeepSeek R1 强化学习(GRPO算法)直接训练推理能力,性能接近GPT-4o

总结对比

模型 参数量范围 语言支持 位置编码 特色技术 典型应用场景
ChatGLM-6B 6.2B 中英 RoPE Deep Norm, GeGLU 智能客服、教育问答
LLaMA 7B-65B 英文 RoPE RMSNorm, SwiGLU 英文对话、代码生成
BLOOM 560M-176B 46种语言 ALiBi GeLU, 多语言训练 多语言翻译、金融分析
Baichuan-7B 7B-130B 中英 RoPE RMSNorm, SwiGLU 本地部署、商业应用
Qwen 18B-720B 多语言 RoPE GQA, 多阶段RLHF 通用对话、数据分析
DeepSeek 67B-671B 中英 RoPE MLA, MoE, MTP 高性能推理、数学任务

贴近生活的例子

  • ChatGLM-6B:用于智能客服系统,支持中英文双语交互,降低企业运维成本。
  • LLaMA:开发者通过微调Alpaca模型,快速构建英文指令遵循的AI助手。
  • BLOOM:跨国公司利用其多语言能力实现多国客户服务自动化。
  • DeepSeek V3:通过MTP技术,一次前向传播生成多个答案,提升在线教育平台的题库解析效率。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐