LLM主流开源大模型分类与特性
Hugging Face开发的多语言模型(支持46种语言+13种编程语言),最大参数量176B。:由清华大学开发的开源中英双语对话模型,基于GLM架构,参数量62亿。:Meta AI开发的英文为主的开源模型,参数量从7B到65B。:深度求索实验室开发的中文优化模型,参数量从67B到671B。:阿里巴巴开发的大规模开源模型,参数量从18亿到720亿。:1.4T token(65B版本),不含中文语料
LLM主流开源大模型分类与特性
1. ChatGLM-6B模型
-
简介:由清华大学开发的开源中英双语对话模型,基于GLM架构,参数量62亿。
-
训练目标:通过自回归空白填充目标(完形填空式任务)训练模型重建被随机mask的连续文本片段。
-
模型结构:
-
改动点:
改动项 描述 Embedding层梯度缩减 将梯度缩小10倍,提升训练稳定性 Deep Norm 基于残差连接的信号放大(α=(2N)1/4α=(2N)^{1/4}α=(2N)1/4) 激活函数 GeGLU(门控线性单元) 位置编码 RoPE(旋转位置编码) -
RoPE原理:
-
将位置信息编码为Query和Key的旋转操作,通过复数域中的角度差异捕捉相对位置依赖。
-
数学表达:对二维向量(x0,x1)(x_0,x_1)(x0,x1)在位置mmm的旋转操作为:
x0′=x0cos(θm)−x1sin(θm)x_0^′=x_0cos(θm)−x_1sin(θm)x0′=x0cos(θm)−x1sin(θm)
x1′=x0sin(θm)+x1cos(θm)x_1^′=x_0sin(θm)+x_1cos(θm)x1′=x0sin(θm)+x1cos(θm)
-
-
-
硬件要求:
量化等级 最低GPU显存(推理) 最低GPU显存(微调) FP16 13GB 14GB INT8 10GB 11GB INT4 6GB 7GB -
迭代版本:
版本 改进点 ChatGLM2-6B 上下文长度从2K扩展到32K,推理速度提升42%,数学任务性能提升571% ChatGLM3-6B 支持多模态理解、代码生成和网络搜索增强
2. LLaMA模型
-
简介:Meta AI开发的英文为主的开源模型,参数量从7B到65B。
-
训练数据:1.4T token(65B版本),不含中文语料。
-
模型结构:
-
改动点:
改动项 描述 归一化 RMSNorm(去均值化) 激活函数 SwiGLU(带门控的非线性) 位置编码 RoPE
-
-
衍生应用:
模型 微调方式 特点 Alpaca 52k英文指令数据微调 英文指令遵循能力强 Vicuna ShareGPT对话数据微调 对话能力优化 Chinese LLaMA 中文词表扩展(49953 token) 中文支持增强 -
迭代版本:
版本 改进点 LLaMA 2 上下文长度扩展到4096,新增Chat版本(SFT+RLHF) LLaMA 3 词汇表扩大到128k,采用GQA提升推理效率,预训练数据增加到15T token
3. BLOOM模型
-
简介:Hugging Face开发的多语言模型(支持46种语言+13种编程语言),最大参数量176B。
-
训练数据:1.5TB文本,中文占比16.2%。
-
模型结构:
-
改动点:
改动项 描述 位置编码 ALiBi(相对位置编码) 激活函数 GeLU(高斯误差线性单元) 归一化 Pre Layer Norm + Embedding Layer Norm
-
-
衍生应用:
模型 应用场景 特点 轩辕 金融领域预训练与微调 针对中文金融任务优化 BELLE 中文指令微调 基于ChatGPT生成数据训练
4. Baichuan-7B模型
-
简介:百川智能开发的中英双语开源模型,参数量70亿。
-
训练数据:1.2T token,含中文互联网数据。
-
模型结构:
-
改动点:
改动项 描述 归一化 RMSNorm 激活函数 SwiGLU 位置编码 RoPE
-
-
迭代版本:
版本 改进点 Baichuan-13B 参数量130亿,支持4096长度上下文,提供INT8/INT4量化版本
5. Qwen模型
-
简介:阿里巴巴开发的大规模开源模型,参数量从18亿到720亿。
-
模型结构:
-
改动点:
改动项 描述 注意力机制 GQA(分组查询注意力) 激活函数 SwiGLU 位置编码 RoPE
-
-
迭代版本:
版本 改进点 Qwen2.5 预训练数据增加到18T token,引入多阶段强化学习
6. DeepSeek模型
-
简介:深度求索实验室开发的中文优化模型,参数量从67B到671B。
-
核心创新:
-
MLA(多头潜在注意力机制):
-
通过低秩分解压缩键值缓存,公式:
ctKV=WDKVht,K=WUKctKV,V=WUVctKVc_t^{KV}=W^{DKV}h_t,K=W^{UK}c_t^{KV},V=W^{UV}c_t^{KV}ctKV=WDKVht,K=WUKctKV,V=WUVctKV
-
缓存大小从 2ndl2ndl2ndl 降低到 2dcl2d_cl2dcl。
-
-
MoE(混合专家系统):
- 引入细粒度专家分割和共享专家隔离,减少冗余计算。
-
-
迭代版本:
版本 改进点 DeepSeek V2 MLA提升推理效率,MoE提升训练效率 DeepSeek V3 多token预测(MTP)提升长距离依赖建模,成本降低至557.6万美元 DeepSeek R1 强化学习(GRPO算法)直接训练推理能力,性能接近GPT-4o
总结对比
| 模型 | 参数量范围 | 语言支持 | 位置编码 | 特色技术 | 典型应用场景 |
|---|---|---|---|---|---|
| ChatGLM-6B | 6.2B | 中英 | RoPE | Deep Norm, GeGLU | 智能客服、教育问答 |
| LLaMA | 7B-65B | 英文 | RoPE | RMSNorm, SwiGLU | 英文对话、代码生成 |
| BLOOM | 560M-176B | 46种语言 | ALiBi | GeLU, 多语言训练 | 多语言翻译、金融分析 |
| Baichuan-7B | 7B-130B | 中英 | RoPE | RMSNorm, SwiGLU | 本地部署、商业应用 |
| Qwen | 18B-720B | 多语言 | RoPE | GQA, 多阶段RLHF | 通用对话、数据分析 |
| DeepSeek | 67B-671B | 中英 | RoPE | MLA, MoE, MTP | 高性能推理、数学任务 |
贴近生活的例子
- ChatGLM-6B:用于智能客服系统,支持中英文双语交互,降低企业运维成本。
- LLaMA:开发者通过微调Alpaca模型,快速构建英文指令遵循的AI助手。
- BLOOM:跨国公司利用其多语言能力实现多国客户服务自动化。
- DeepSeek V3:通过MTP技术,一次前向传播生成多个答案,提升在线教育平台的题库解析效率。
更多推荐



所有评论(0)