主流大模型学习笔记

大语言模型（Large Language Model, LLM）是一种基于深度学习（特别是Transformer架构）的海量参数模型，通过在极大规模的文本数据集上进行预训练，获得强大的语言理解、生成和推理能力。：MoE（混合专家）架构成为新趋势，它用更低的计算成本换取了更大的模型容量，是未来发展的关键方向（如Mixtral, DeepSeek-V3）。：基于千亿大模型，自发布之初就明确了“长文本”

爱吃菠萝的程序员

426人浏览 · 2025-09-20 02:31:37

爱吃菠萝的程序员 · 2025-09-20 02:31:37 发布

一、引言

大语言模型（Large Language Model, LLM）是一种基于深度学习（特别是Transformer架构）的海量参数模型，通过在极大规模的文本数据集上进行预训练，获得强大的语言理解、生成和推理能力。其核心能力来自于“预训练 + 微调/提示”的范式。

二、主流闭源模型（通过API提供服务）

这类模型由大型科技公司开发和维护，以其最先进的性能著称，但内部细节不公开。

1. GPT-4 (及 GPT-4o) - OpenAI

简介：GPT-4是OpenAI在2023年发布的里程碑式模型。其后续迭代GPT-4o（“o”代表omni）是一个多模态模型，原生能够处理文本、音频和图像输入，并在响应速度和质量上，特别是在非英语语言和音频理解方面有显著提升。

核心特点：

多模态：GPT-4o能同时理解和生成文本、音频、图像，对话体验更自然。

高性能：在复杂推理、指令遵循和创造力方面长期处于行业领先地位。

长上下文：支持128K tokens的上下文窗口，能处理超长文档。

优势：综合能力最强，生态最成熟，是许多企业应用和开发者的首选API。

2. Claude 3系列 - Anthropic

简介：Anthropic专注于构建“安全、可靠、可解释”的AI。Claude 3系列包含三个子模型：Haiku（快速、廉价）、Sonnet（均衡）、Opus（最强能力）。

核心特点：

长上下文之王：支持200K tokens的上下文，处理长文档能力极强。

“宪法AI”原则：在训练中融入了一套价值观准则，旨在减少有害输出和偏见。

强大的归纳能力：在阅读、总结和基于长文档的问答方面表现突出。

优势：在长文本处理、文档分析和安全性方面有独特优势，被认为是GPT-4最有力的竞争者。

3. Gemini 1.5 - Google DeepMind

简介：Google的旗舰多模态模型，其最大特点是超长的上下文窗口。标准版本支持128K，而实验性的版本甚至支持百万级别的tokens。

核心特点：

史诗级长上下文：能够处理长达1小时视频、11小时音频或超过3万行代码的庞大信息量，实现真正的“全局”理解。

原生多模态：从训练之初就设计为处理多种模态信息（文本、代码、音频、视频、图像）。

MoE架构：采用混合专家模型（Mixture-of-Experts），推理时更高效。

优势：在需要处理海量信息的场景下无可匹敌，如图书分析、大型代码库理解等。

4. 豆包（字节跳动）

简介：采用稀疏MoE架构，以极低训练成本实现等效7倍Dense模型的性能。

核心特点：

在多模态交互领域表现亮眼。

支持实时语音合成（会哭会笑、能说方言），已覆盖超300家医院的患者教育场景。

近期推出的“深入研究”功能可快速生成定制化报告并转成播客。

优势：性能表现突出，适用于实时交互类应用。

三、主流开源模型

开源模型推动了技术的民主化，允许研究者、开发者自由使用、修改和部署。

1. Llama 3 系列 - Meta

简介：Llama系列是开源社区的基石和标杆。Llama 3于2024年发布，提供了8B和70B两个参数规模的版本，并计划推出更大版本。

核心特点：

强大的开源基线：在代码、推理和指令遵循方面设定了新的开源标准。

高质量数据：非常注重训练数据的质量，而非单纯追求数量。

强大的生态：拥有极其丰富的衍生模型和社区支持（如Hugging Face上的数千个微调版本）。

优势：性能与某些闭源模型相当，完全可商用（需遵守许可协议），是企业和个人自建AI应用的首选。

2. Mistral & Mixtral 系列 - Mistral AI

简介：一家法国初创公司，以发布高效、小巧而强大的模型闻名。Mixtral 8x7B是其明星产品，一个稀疏混合专家模型（SMoE）。

核心特点：

混合专家（MoE）：模型包含8个“专家”子网络，每次推理仅激活2个，这使得它以约130亿的激活参数，达到了70B模型的性能，同时保持了极快的推理速度。

Apache 2.0 许可证：完全开源，无使用限制，可自由商用。

高效能：在性能、速度和成本间取得了绝佳平衡。

优势：部署成本低、推理速度快，非常适合资源受限的生产环境。

3. DeepSeek-V3 - 深度求索

简介：开源，中国大模型领域的顶尖代表。DeepSeek-V2采用了创新的MLA（Multi-head Latent Attention）架构和MoE设计，以236B的总参数实现了仅21B的激活参数量，效率极高。

核心特点：

技术架构创新：MLA等创新技术有效降低了计算和显存开销。

长上下文：支持128K tokens，并在此长度上保持了强劲的性能。

中英双语优势：在中文理解和生成上具有原生优势，同时英语能力也很强。

优势：极具性价比的架构，强大的中英双语能力，是中文场景下的首选开源模型之一。

4. 文心一言（ERNIE，百度）

简介：部分开源，采用知识增强的 Transformer 架构，融合超大规模知识图谱（约 5500 万实体），并支持多模态（文本、图像、视频）处理。

核心特点：

在中文理解（如成语、古文翻译）和 多模态任务（如图文理解）方面表现优异。

在医疗、法律等专业领域表现突出（医疗误诊率仅 2.3%）。

在C-Eval 中文基准测试中准确率达 82.3%。

优势：中文理解及医疗、法律等专业领域非常突出。

5. 通义千问（Qwen，阿里）

简介：部分开源，基于Transformer-XL改进架构，支持超长上下文（最高 32K），并采用多模态统一架构（Qwen-UM），支持文本、图像、音频的联合建模。

核心特点：

提供 1.8B 到 72B 多个参数规模的模型

在电商、金融等垂直领域表现优异（商品描述生成准确率 95%）。

在多模态任务（如图文匹配）方面表现较好（匹配度 93.2%）。

在C-Eval 中文基准测试中准确率达 83.7%。

优势：中文理解及电商、金融等垂直领域表现优异。

6. Baichuan（百川智能）

简介：开源，采用RLHF（人类反馈强化学习）和 DPO 结合的训练方法，针对中文优化，并在安全合规方面进行了增强。

核心特点：

提供 7B、13B 等参数规模的模型

在中文准确率（C-Eval 85.1%）和安全合规方面表现突出，适合政务、医疗场景。

在代码生成和数学推理方面表现稳定。

优势：政务、医疗等需要安全稳定的场景表现优秀。

7. ChatGLM（智谱AI）

简介：部分开源，基于自回归填充范式，结合双向注意力机制，支持多模态对齐（文本、图像、表格）。

核心特点：

提供 6B 到 130B 参数规模的模型

在金融报告生成、法律合同解析等长文本任务中表现良好（F1 值 0.91）。

在开源社区中较受欢迎，部署友好，支持轻量化推理。

优势：金融报告生成、法律合同解析等处理中表现优秀。

8. Kimi（月之暗面）

简介：基于千亿大模型，自发布之初就明确了“长文本”、“自研闭源”、“toC”等特色标签，支持超长无损上下文处理，体现了其在大模型技术上的突破。

核心特点：

以20万汉字上下文窗口成为长文本处理标杆，显著提升学术分析效率。

在医学文献综述场景帮助研究人员提效50%，正加速向法律、科研领域延伸。

优势：在超长无损上下文处理领域中表现突出。

四、对比分析

模型系列	发布方	开源/闭源	核心优势	典型应用场景
GPT-4 / GPT-4o	OpenAI	闭源	综合能力最强，多模态，生态成熟	通用Chatbot、复杂内容创作、高级推理、多模态交互
Claude 3	Anthropic	闭源	超长上下文（200K），安全性高，文档分析	长文档总结、法律金融文档处理、需要高可靠性的对话
Gemini 1.5	Google	闭源	极长上下文（最高1M tokens），原生多模态	分析超长视频/音频、处理大型代码库、海量信息检索
豆包	字节跳动	闭源	性能突出，在多模态交互领域表现亮眼	适用于实时交互类应用
Llama 3	Meta	开源	开源标杆，性能强大，生态丰富	企业私有化部署、学术研究、开发者微调定制
Mixtral	Mistral AI	开源	高效率（MoE架构），速度快，成本低	高并发API服务、资源受限的边缘设备、快速原型开发
DeepSeek-V3	深度求索	开源	架构创新性价比高，中英双语优势	中文NLP任务、双语产品开发、需要长上下文的国产化方案
文心一言	百度	部分开源	知识增强 + 多模态	医疗、法律、多模态创作
通义千问	阿里	部分开源	Transformer-XL，多模态	电商、金融、多模态任务
Baichuan	百川智能	开源	RLHF+DPO，安全增强	政务、医疗、高安全合规需求
ChatGLM	智谱AI	开源	自回归填充，多模态对齐	金融、法律、长文本处理
Kimi	月之暗面	闭源	超长无损上下文处理	长文本处理

趋势观察：

“Scaling Law”仍在延续：更大参数、更多数据、更长上下文窗口依然是提升能力的主要路径。

架构创新驱动效率革命：MoE（混合专家）架构成为新趋势，它用更低的计算成本换取了更大的模型容量，是未来发展的关键方向（如Mixtral, DeepSeek-V3）。

多模态成为标配：纯粹的文本模型逐渐让位于能自然理解和生成图像、音频、视频的多模态模型。

上下文窗口急速扩张：从4K到100K再到1M，模型“记忆力”的增强解锁了前所未有的应用场景。

开源与闭源并驾齐驱：闭源模型追求极致性能，开源模型推动创新和可及性，两者共同繁荣了生态系统。

五、参考资料

主流大模型分析对比

https://blog.51cto.com/u_13171517/13876604

国产大模型大全

https://mp.weixin.qq.com/s?__biz=MzI2MzcxMTU5Mg==&mid=2247529178&idx=4&sn=853c630d6ed24745fcd8055d27893ee3&chksm=ebf61b3c1fd78c70178a7f3f3e76dae5a3812122279b04d388727c941e8f6c6914bfc957d869&scene=27

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

TDengine 时区配置问题全解

其中，TDengine TSDB 是一款高性能、分布式的时序数据库（Time Series Database），同时它还带有内建的缓存、流式计算、数据订阅等系统功能；TDengine IDMP 是一款AI原生工业数据管理平台，它通过树状层次结构建立数据目录，对数据进行标准化、情景化，并通过 AI 提供实时分析、可视化、事件管理与报警等功能。近期各语言连接器已统一 Websocket 时区配置方式，

2048 AI社区

AI时代，技术人何去何从

我不知道现在还有多少人喜欢看公众号内容，至少每天给我推送的文章都很合我胃口，所以我就觉得这个平台不但内容很多，推荐算法也越来越精准了，总之就是数据越多流量越大，算法就越精准，继续推动更大的流量产生，形成了正向闭环，未来也只会越来越是如此。软件工程师其实是狭义的一类技术人，因为涉及技术的还有硬件工程师，嵌入式工程师，BA工程师等等，但因为数字化产业，互联网产业的发展太顺利了，让软件工程师这个群体成为

2048 AI社区

LLM Benchmark

EvalScope 由阿里巴巴魔搭社区（ModelScope）开源，定位为「大模型全生命周期评估基座」，覆盖通用 LLM、多模态、Embedding、Reranker、CLIP、AIGC（图生文/视频）等全类型模型能力验证与性能压测。评价基准丰富：内置了多个主流评价基准，包括且不限于：MMLU：涵盖57门学科的多项选择题，考察模型通识与领域理解能力CMMLU：MMLU中文版本。