⽬前 主流的开源模型体系 有哪些?
国际主流+社区生态:如 LLaMA、Mistral、Falcon、BLOOM国内优化+中文生态:如 ChatGLM、Baichuan、Qwen、InternLM趋势模型参数量逐渐走向“大+小”双路线(超大模型为研究,小模型便于部署)MoE(专家混合)架构得到广泛应用中文优化和本地化训练数据越来越重要开源商用许可证更受关注当前开源模型体系呈现“框架工具链成熟化、模型性能前沿化、应用场景垂直化”的特点
⽬前 主流的开源模型体系 有哪些?
答案:
⽬前主流的开源LLM(语⾔模型)模型体系包括以下⼏个:
- GPT(Generative Pre-trained Transformer)系列:由OpenAI发布的⼀系列基于Transformer架构的语⾔模型,包括GPT、GPT-2、GPT-3等。GPT模型通过在⼤规模⽆标签⽂本上进⾏预训练,然后在特定任务上进⾏微调,具有很强的⽣成能⼒和语⾔理解能⼒。
- BERT(Bidirectional Encoder Representations from Transformers):由Google发布的⼀种基于Transformer架构的双向预训练语⾔模型。BERT模型通过在⼤规模⽆标签⽂本上进⾏预训练,然后在下游任务上进⾏微调,具有强⼤的语⾔理解能⼒和表征能⼒。
- XLNet:由CMU和Google Brain发布的⼀种基于Transformer架构的⾃回归预训练语⾔模型。XLNet模型通过⾃回归⽅式预训练,可以建模全局依赖关系,具有更好的语⾔建模能⼒和⽣成能⼒。
- RoBERTa:由Facebook发布的⼀种基于Transformer架构的预训练语⾔模型。RoBERTa模型在BERT的基础上进⾏了改进,通过更⼤规模的数据和更⻓的训练时间,取得了更好的性能。
- T5(Text-to-Text Transfer Transformer):由Google发布的⼀种基于Transformer架构的多任务预训练语⾔模型。T5模型通过在⼤规模数据集上进⾏预训练,可以⽤于多种⾃然语⾔处理任务,如⽂本分类、机器翻译、问答等。
这些模型在⾃然语⾔处理领域取得了显著的成果,并被⼴泛应⽤于各种任务和应⽤中。
chatgpt:
目前主流的开源大语言模型(LLM)体系和生态主要可以分为几个方向,从模型研发主体和技术路线来看,大致如下(截至 2024 年):
1. LLaMA 系列(Meta)体系
- 代表模型:LLaMA 2、LLaMA 3(2024年发布)
- 特点:
- 由 Meta 研发,开源可商用(需遵守协议)。
- 在通用语言理解和生成上表现较强,生态庞大。
- 许多社区热门二次开发模型基于 LLaMA,如:
- Vicuna(Fine-tuned 版,偏对话优化)
- WizardLM
- OpenLLaMA
- 定位:通用型、大规模基础模型,适用于中英文和多语言任务。
2. Mistral & Mixtral 系列(Mistral AI)
- 代表模型:
- Mistral 7B (高效的密集型模型)
- Mixtral 8x7B(MoE架构,激活2个专家,推理快,成本低)
- 特点:
- 高性价比,推理速度快、精度高。
- 以开放权重形式发布,社区可二次微调。
- 应用场景:推理加速、成本敏感的大语言模型部署。
3. Falcon 系列(TII 阿布扎比科技创新院)
- 代表模型:
- Falcon 7B / 40B
- 特点:
- 商业可用,较好的多语言能力。
- 在某些基准测试表现突出,尤其是多语种任务。
4. BLOOM 系列(BigScience / Hugging Face)
- 代表模型:
- BLOOM / BLOOMZ
- 特点:
- 开源许可证更开放(RAIL License)。
- 多文化、多语种支持全面。
- 训练数据透明,注重科研可复现。
5. OpenAI 衍生开源替代(社区驱动)
- 虽然 GPT 系列本身不开源,但社区基于公开数据和技术路线有很多替代模型,例如:
- OpenChat
- RWKV(RNN结构 + Transformer优势,轻量高效)
6. 国内开源模型体系
国内开源生态近两年发展迅速,结合中文优化和国产硬件适配:
- ChatGLM 系列(清华大学 + 智谱AI)
- ChatGLM2-6B / ChatGLM3
- 强化中文对话能力,低显存即可部署。
- Baichuan 系列(百川智能)
- Baichuan 7B / 13B
- 商业可用,中文能力突出。
- Qwen 系列(阿里云)
- Qwen 7B / 14B
- Yi 系列(零一万物 / 01.AI)
- Yi-6B / Yi-34B
- InternLM 系列(上海人工智能实验室)
- InternLM 7B / 20B
7. 其他较活跃的开源架构
- Gemma(Google)
- XGen(Salesforce)
- Phi-2 / Phi-3(Microsoft)
- Command R(Cohere,偏检索增强)
总结
目前开源模型生态呈现“两大类”:
- 国际主流+社区生态:如 LLaMA、Mistral、Falcon、BLOOM
- 国内优化+中文生态:如 ChatGLM、Baichuan、Qwen、InternLM
趋势:
- 模型参数量逐渐走向“大+小”双路线(超大模型为研究,小模型便于部署)
- MoE(专家混合)架构得到广泛应用
- 中文优化和本地化训练数据越来越重要
- 开源商用许可证更受关注



deepseek:
当前主流的开源模型体系非常丰富,涵盖了从通用大语言模型到专注于特定语言或任务的各类模型。为了让你能快速了解,我根据其核心特点,将主流体系梳理为以下几个方向。
🔍 主流开源模型体系概览
| 体系类别 | 核心特点与代表模型 | 主要应用方向 |
|---|---|---|
| 通用大语言模型 | Llama系列 (如基于Llama的OpenHathi)、DeepSeek系列 (DeepSeek-V3, DeepSeek R1)、Qwen系列 (Qwen3)、Kimi K2 | 对话、内容生成、复杂推理、编程等广泛任务 |
| 专注特定语言 | 印度语言:IndicTrans2, IndicBERT, Sarvam系列 中文:Qwen, 混元系列 |
多语言翻译、本土化NLP应用、特定语言内容生成 |
| 专注特定任务 | 视觉语言:Qwen3-VL系列 语音处理:IndicWav2Vec, Vakyansh ASR 代码与智能体:MiniMax-M2 |
图文理解、语音识别与合成、代码生成与自动化 |
| 高效推理框架 | vLLM、TensorRT-LLM、SGLang | 不直接提供模型,而是优化已有模型的推理速度与效率,支撑大规模服务 |
💡 如何选择适合的模型
面对众多选择,你可以根据以下步骤来找到最适合自己需求的模型:
-
明确任务场景
首先想清楚你要用模型来做什么。是开发一个多语言聊天应用,还是构建一个处理中文报告的自动化工具?是需要理解图片内容,还是识别语音?明确核心任务是第一步。 -
评估技术细节
- 模型规模与效率:庞大的模型(如万亿参数的Kimi K2)能力虽强,但对硬件要求也高。可以优先考虑采用了MoE (混合专家) 技术的模型(如DeepSeek-V3),它们在推理时能激活较少参数,实现高性能与高效率的平衡。
- 支持语言:如果你的业务涉及多语言环境,特别是印度语言或中文,那么选择专注于该语言体系的模型效果通常会更好。
- 微调与部署:确认模型是否提供不同尺寸的版本(如Qwen3系列),方便你根据自身算力进行选择。同时,了解其是否有活跃的社区和良好的工具链支持。
-
利用开源生态
在选择和部署阶段,可以借助 Hugging Face 等平台获取模型。在部署时,可以考虑使用 vLLM、TensorRT-LLM 等推理框架来显著提升模型的响应速度和服务吞吐量。
通义千问:
目前,主流的开源大语言模型(LLM)体系呈现出百花齐放的态势,既有国际科技巨头推出的奠基性模型,也有中国公司在近期实现的集群式突破。这些模型通常基于Transformer架构,并在预训练方法、模型规模和应用场景上各有创新。
以下是当前主流的开源模型体系分类:
一、 国际代表性开源模型体系
-
LLaMA 系列 (Meta):
- 特点:由Meta(原Facebook)发布,是当前最广泛使用和研究的开源模型基础之一。它采用高效的模型架构(如RMSNorm, SwiGLU),在大规模多语言数据上训练,具有很高的性价比和可微调性。后续的LLaMA 2和LLaMA 3进一步提升了性能和开放程度。
- 代表模型:LLaMA, LLaMA 2, LLaMA 3。
-
Gemma 系列 (Google):
- 特点:谷歌推出的轻量级、高性能开源模型,旨在为开发者提供易于使用和定制的工具。它基于与Gemini系列相同的架构和技术,但在设计上进行了优化,以提高效率和响应速度,适合在各种规模的设备上部署。
- 代表模型:Gemma 2B, Gemma 7B。
-
Mistral 系列 (Mistral AI):
- 特点:由法国公司Mistral AI开发,以其高效和灵活性著称。该模型通过高度优化的算法,在保持高性能的同时显著降低了计算开销,解决了大模型部署中的成本和效率问题。
- 代表模型:Mistral 7B, Mixtral 8x7B (混合专家模型)。
二、 中国顶尖开源模型体系 (近期表现尤为突出)
根据2025年8月的权威评测平台Design Arena的排行榜,全球排名前列的开源大模型几乎被中国模型包揽,显示出中国在开源领域的强大实力。
-
DeepSeek 系列 (深度求索):
- 特点:在数学、代码和复杂推理任务上表现卓越,能与顶尖闭源模型分庭抗礼。其MoE(混合专家)架构模型(如DeepSeek-V3)在性能和性价比上均处于领先地位。
- 代表模型:DeepSeek-R1, DeepSeek-V3, DeepSeek-V2。
-
Qwen 系列 (阿里巴巴):
- 特点:阿里巴巴通义实验室发布的系列模型,在多个国际榜单上名列前茅。Qwen系列覆盖了从7B到超大规模(如235B)的多种参数版本,并在代码、多语言处理等方面有专门优化。
- 代表模型:Qwen2, Qwen3, Qwen 3 Coder。
-
GLM 系列 (智谱AI):
- 特点:基于通用语言模型(General Language Model)架构,支持中英双语,在中文理解和生成任务上表现优异。其最新模型在综合性能上极具竞争力。
- 代表模型:ChatGLM-6B, GLM-4.5。
-
Kimi 系列 (月之暗面):
- 特点:以超长上下文处理能力闻名,其开源的K2模型在需要处理长文档和复杂信息的任务中表现出色。
- 代表模型:Kimi K2。
三、 其他重要模型与技术体系
- GPT 系列 (OpenAI):虽然GPT-3.5及之后的模型本身闭源,但其开创的Generative Pre-trained Transformer架构是所有现代大语言模型的基础。更早的GPT-2等模型是开源的。
- BERT 系列 (Google):一种基于Transformer的双向编码器模型,主要用于语言理解任务(如文本分类、问答),是NLP领域的里程碑。
- T5 (Google):一种Encoder-Decoder架构的模型,将所有NLP任务都视为“文本到文本”的转换问题,具有很强的通用性。
- Falcon (TII):阿联酋技术发展公司(TII)发布的高性能开源模型,有7B和40B等版本。
- Vicuna:由加州大学伯克利分校等机构基于LLaMA微调的开源聊天模型,早期在社区中非常流行。
总结:
当前主流的开源模型体系,以 LLaMA 为代表的国际模型和以 DeepSeek、Qwen、GLM 为代表的中国模型构成了核心力量。这些模型不仅在性能上不断逼近甚至在某些评测中超越闭源模型,而且极大地推动了AI技术的普及、应用创新和商业化落地。选择哪个模型体系,通常取决于具体的应用场景、性能要求、计算资源和对特定语言(如中文)的支持需求。
豆包:
当前主流的开源模型体系已形成覆盖框架、模型、工具链的完整生态,技术迭代聚焦于效率提升与多模态融合。以下是基于2025年最新动态的核心体系分类及代表项目:
一、基础框架与工具链
-
PyTorch生态
- 技术定位:占据研究领域60%的份额,动态图调试优势显著,支持混合精度训练、梯度检查点等优化技术。
- 2025年新特性:
- 原生集成FlashAttention-3,长序列处理速度提升25%;
- 强化MoE(混合专家模型)支持,简化稀疏激活模型开发;
- 分布式训练框架DeepSpeed深度整合,支持万亿参数模型训练。
- 典型应用:Meta LLaMA 3.1、蚂蚁Ring-1T-preview等模型均基于PyTorch构建。
-
Hugging Face平台
- 生态地位:全球最大AI模型共享社区,托管50万+预训练模型,覆盖文本、图像、音频等多模态领域,开发者超800万。
- 核心优势:
- 模型民主化:提供GLM-4.5(3550亿参数)等高性能模型,API成本低至0.8元/百万字输入;
- 工具链整合:集成Transformers库、Optimum优化工具、Spaces快速部署平台,形成从训练到推理的闭环。
- 2025年趋势:
- 轻量化模型爆发,如GLM-4.5-Air在手机端流畅运行,支持隐私优先的离线推理;
- 多模态工具链完善,HuggingSnap实现完全离线的视觉AI应用。
-
新兴训练框架
- JAX:Google函数式编程框架,结合静态编译与动态调试,适合高阶导数计算和TPU优化,常用于科研场景(如MoE架构探索)。
- Colossal-AI:国产框架,支持流水线并行、张量并行等混合并行策略,训练效率比PyTorch提升30%,在金融风控等领域落地。
- Megatron-LM:NVIDIA开源的超大规模模型训练框架,支持千亿级Transformer并行,被用于训练Llama 3等模型。
二、自然语言处理(NLP)模型体系
-
国际开源标杆
- Meta LLaMA系列:
- LLaMA 3.1(1.8万亿参数)在MMLU评测中排名开源第一,支持4K上下文窗口,代码生成能力接近GPT-4;
- 最新版本引入稀疏MoE架构,推理速度提升2倍,适配消费级显卡。
- Mistral AI模型:
- Mistral 7B在代码生成任务中超越同等规模模型,Python代码规范性获开发者高度认可,被用于自动化办公工具开发。
- Meta LLaMA系列:
-
中国开源崛起
- 智谱AI GLM系列:
- GLM-4.5综合性能全球第三、开源第一,支持200K长上下文,推理速度比ChatGPT快4倍,API成本仅为其1/5;
- GLM-4.6引入多模态能力,可同时处理文本、图像和视频,在智能绘画辅助等场景落地。
- MiniMax-M2:
- 在AA榜单中开源模型第一,总分进入全球前五,API成本极低,被用于智能客服和内容生成。
- 蚂蚁Ring系列:
- Ring-1T-preview(999.71亿参数)在AIME数学竞赛中获92.6分,逼近GPT-5的94.6分,支持全模态处理。
- 智谱AI GLM系列:
-
专用模型与工具
- OpenR框架:
- 整合过程监督与强化学习,提升LLM数学推理能力,在MATH500数据集上准确率提升10%,支持代码执行和工具调用。
- Firefly流萤:
- 开源低成本微调工具链,支持QLoRA、LoRA等技术,可在消费级显卡上微调出行业专用模型,如法律问答机器人。
- OpenR框架:
三、多模态与计算机视觉
-
多模态模型
- 商汤LazyLLM:
- 支持自然语言描述生成工业设备故障诊断系统,传统20人月项目缩短至72小时,在三一重工等企业应用。
- 阶跃星辰Step-Video-T2V:
- 开源视频生成框架,用3块RTX4090显卡即可生成电影级特效,成本仅为行业均价的5%,被用于MCN内容创作。
- 商汤LazyLLM:
-
计算机视觉体系
- Hugging Face Vision库:
- 集成Stable Diffusion、DALL-E等模型,支持图像生成、分割、深度估计等任务,提供预训练权重和示例代码。
- Segment Anything Model (SAM):
- Meta开源的通用图像分割模型,支持零样本分割任意物体,被集成到Hugging Face生态,用于医疗影像分析等领域。
- Hugging Face Vision库:
四、模型部署与工程化
-
推理优化工具
- DeepSpeed:
- 支持模型量化(INT4/INT8)、动态显存优化,在8卡A100上部署千亿模型仅需30分钟,被阿里云等厂商采用。
- ONNX Runtime:
- 跨框架推理引擎,支持PyTorch、TensorFlow模型转换,在金融风控场景中推理延迟降低40%。
- DeepSpeed:
-
低代码平台
- Dify:
- 基于Apache 2.0协议的AI应用开发平台,支持多租户限制,被用于快速构建智能助手和聊天机器人,用户超10万。
- DooTask:
- 开源项目管理工具,集成AI推理模块,可自动生成任务计划和风险预警,与蚂蚁Ring-1T-preview结合提升协作效率。
- Dify:
五、开源生态与未来趋势
-
技术范式转变
- 效率优先:模型竞争从“参数竞赛”转向“单位算力价值”,如GLM-4.5用更少参数实现更高性能,蚂蚁Ring模型通过稀疏MoE提升吞吐量。
- 场景驱动:中国开发者针对金融、医疗等垂直领域开发专用模型,如TigerBot金融大模型在法律合规任务中F1值达92%。
-
开源模式创新
- 混合许可兴起:部分项目采用“源码可用+商用受限”模式,如Dify、Cherry Studio在保留开源特性的同时保障商业权益,推动技术普惠与商业化平衡。
- 全球协作加强:中国开发者贡献度全球第二,在Hugging Face Top 10活跃项目中占3席,与国际社区共同推动模型迭代。
-
伦理与安全
- 内置检查模块:欧盟《AI法案2.0》要求开源模型必须包含伦理检查,如内容毒性检测和偏见消除,中国信通院也在制定相关治理标准。
- 隐私保护技术:Hugging Face推出数据不出设备的离线推理工具,支持GDPR合规,在车载系统等场景应用。
总结
当前开源模型体系呈现“框架工具链成熟化、模型性能前沿化、应用场景垂直化”的特点。PyTorch和Hugging Face仍主导生态,中国模型在多模态和效率上实现突破,新兴框架推动训练成本下降。未来,开源将进一步向工程化、伦理化演进,成为AI技术普惠的核心驱动力。开发者可根据任务需求(如研究/工业)、硬件条件(如GPU/TPU)和预算选择合适的框架与模型,通过低代码平台快速落地应用。
文心一言:
当前主流开源模型体系主要分为大语言模型(LLMs)和多模态模型两大类,具体包括以下核心体系及代表模型:
一、大语言模型(LLMs)体系
-
Meta Llama系列
- Llama 3(2025年发布):支持128K上下文,原生多模态能力,性能接近闭源模型,开源标杆。包含8B/70B参数版本,适配移动端到高性能服务器场景。
- Llama 2:7B-70B参数,优化长文本处理,广泛应用于对话、文本生成、多语言翻译。
-
Mistral AI模型
- Mistral 7B:高效推理设计,滑动窗口注意力,字节回退BPE标记器,在基准测试中超越Llama-2 13B,适用于指令跟随、代码生成。
- Mixtral 8x7B:混合专家(MoE)架构,选择性激活子模型,平衡性能与效率。
-
智谱GLM-4.5
- 2025年登顶全球开源模型总榜第三、国产第一,支持“全能型”任务(如代码生成、智能体构建),采用MIT协议彻底开源,参数效率显著优于同类模型。
-
MiniMax M2
- Artificial Analysis榜单全球前五、开源第一,推理速度超Claude Sonnet 4.5近一倍,成本仅8%,适用于企业级应用。
-
其他主流LLMs
- Falcon系列(阿联酋TII):180B参数,多语言支持,高效推理架构,Apache 2.0许可。
- BLOOM(BigScience):176B参数,多语言零样本学习,支持代码生成、知识推理。
- MPT系列(MosaicML):30B参数,处理长文本(65K上下文),适用于长篇小说、复杂问答。
二、多模态模型体系
-
AriaAI(Rhymes AI)
- 开源多模态原生专家混合模型,支持文本、代码、图像、视频统一处理,擅长长多模态输入解析(如长文档、视频理解)。
-
Leopard(圣母大学等)
- 专为高分辨率图像和多页文档设计,自适应高分辨率编码模块,支持科学报告、网页理解、数据可视化。
-
CogVLM
- 认知视觉语言模型,基于注意力融合机制,应用于视觉问答(VQA)、图像字幕生成。
-
LLaVA系列
- 结合Vicuna解码器和CLIP视觉编码器,支持多模态交互(如基于图像的查询响应),适用于教育、医疗、营销场景。
-
BLIP系列
- BLIP-2/InstructBLIP:感知与认知任务双优,在MME评测基准中位列前三,支持OCR、目标识别、常识推理。
三、评估与生态
- 权威榜单:Hugging Face开源榜单、Chatbot Arena Leaderboard、Open LLM Leaderboard,综合评估语言理解、推理、安全性等维度。
- 工具链:Hugging Face Transformers、LangChain、vLLM等支持模型部署与微调,加速产业落地。
总结:开源模型体系正朝着高性能、多模态、高效率方向发展,以Llama 3、GLM-4.5、Mistral等为代表的大语言模型,以及AriaAI、Leopard等多模态模型,已成为学术研究和产业应用的核心支撑。选择时需结合具体场景(如资源限制、任务复杂度)评估模型性能与适用性。
讯飞星火:
⽬前主流的开源模型体系可从基础架构、训练优化框架及新型架构设计三个维度进行归纳,以下为具体分类及代表案例:
一、基础模型架构体系
Transformer系
核心特点:通过自注意力机制捕捉长距离依赖关系,支持双向编码或单向解码。
代表模型:
GPT系列(生成能力突出,如GPT-3及其开源变体GPT-Neo);
BERT(双向编码,擅长语言理解任务);
T5(多任务统一文本处理框架)。
因果解码器(Causal Decoder)系
核心特点:单向注意力机制,适用于自回归生成任务,训练效率高且具备零样本学习能力。
代表模型:LLaMA系列(如LLaMA-7B)及其衍生模型(Vicuna等)。
前缀解码器(Prefix Decoder)系
核心特点:输入双向注意力+输出单向注意力,平衡理解与生成能力。
代表模型:ChatGLM、U-PaLM。
二、训练与优化框架
Hugging Face Transformers
特点:提供丰富的预训练模型库(如BERT、GPT-2),支持快速迁移学习与多语言任务。
优势:社区活跃、API简洁,适合研究和应用开发。
DeepSpeed(微软)
特点:通过ZeRO优化器、混合精度训练提升大规模模型训练效率,降低内存消耗。
适用场景:资源受限环境下的超大规模模型训练。
Megatron-LM(NVIDIA)
特点:采用模型并行技术,支持千亿级参数训练,优化长序列处理性能。
三、新兴架构与创新方向
混合专家系统(MoE)
代表模型:DeepSeek V3/R1、Llama 4 Maverick。
技术亮点:通过稀疏激活专家模块提升计算效能,如DeepSeek V3集成256个专家,仅激活9个参与推理。
多头潜在注意力(MLA)
代表模型:DeepSeek V3、Kimi 2。
优势:压缩键值张量降低内存占用,优化推理速度。
滑动窗口注意力
代表模型:Gemma 3。
设计目标:局部注意力机制减少计算量,兼顾效率与全局上下文捕捉。
四、领域专用与多模态模型
编程语言模型:CodeGeeX、StarCoder(支持代码生成与补全)。
多语言/法律领域模型:CPM-Bee(中英双语)、LaWGPT(法律问答)。
对话与图像模型:ChatGLM(对话系统)、Stable Diffusion(文生图)。
总之,当前开源模型体系呈现三大趋势:一是架构多样化(如MoE、MLA);二是训练框架高效化(如DeepSpeed、Megatron-LM);三是应用场景泛化(多模态、领域专用)。开发者可根据任务需求选择适配的模型体系,例如生成任务优先因果解码器,复杂理解任务可选前缀解码器或Encoder-Decoder架构。
360智脑:
目前主流的开源模型体系包括以下几种:
-
GPT系列:由OpenAI发布,包括GPT、GPT-2、GPT-3等。这些模型基于Transformer架构,擅长生成自然语言文本。
-
T5(Text-to-Text Transfer Transformer):由Google发布,是一种基于Transformer架构的多任务预训练语言模型,可以处理多种NLP任务。
-
RoBERTa:在BERT的基础上进行了改进,通过更大规模的数据和更长的训练时间,取得了更好的性能。
-
LLaMA系列:由Meta推出,包括Llama38B和Llama370B等,这些模型在同体量模型中展现出卓越的性能。
-
Phi-3系列:由微软AI研究院发布,包括Phi-3-Mini、Phi-3-Small和Phi-3-Medium三种规模,具备小巧且高效的特性。
-
Qwen(通义千问):经过详尽的性能测试,Qwen1.5-110B已成为当前最顶尖的开源大模型,支持多种语言。
-
BLOOM:拥有1760亿参数,是强大的开源LLMs之一,能以46种语言和13种编程语言生成连贯准确的文本。
-
BERT:早期大型语言模型的代表作,开源后迅速在自然语言处理任务中取得先进性能。
-
Falcon180B:在开源LLM社区备受赞誉,已在多种NLP任务中超越LLaMA 2和GPT-3.5。
-
GPT-NeoX和GPT-J:由EleutherAI实验室开发,分别拥有200亿和60亿参数,尽管参数少于其他LLMs,但仍能提供高精度结果。
-
Vicuna13-B:通过微调和特定优化,展示了与当前最先进模型相媲美的性能。
-
ChatGLM、DeepSeek、Qwen:这些是国内的开源大模型,展现了在中英文处理和特定领域问答中的强大能力。
-
HuggingFace Transformers库:提供了大量的预训练模型和工具,极大地促进了NLP任务的研究和应用。
-
PyTorch Lightning:建立在PyTorch之上的轻量级框架,通过简化模型的训练和验证过程,加速了深度学习模型的原型设计和实验。
-
TensorFlow Model Garden:TensorFlow官方提供的预训练模型集合,覆盖了自然语言处理、计算机视觉等多个领域。
这些模型和框架在不同的评测维度和应用场景中展现出了各自的优势和特点,广泛应用于自然语言处理、代码生成、智能体交互等多个领域。
以上内容均由AI搜集总结并生成,仅供参考
智谱清言:
目前主流的开源大模型体系主要包括以下几大系列,它们在参数规模、语言支持、社区活跃度、应用场景等方面各有侧重,是全球和国内开发者广泛采用的基座模型:
1. Meta Llama 系列
- 代表模型:Llama 1、Llama 2、Llama 3、Llama 3.2 Vision(多模态)
- 特点:全球影响力最大,开源社区最活跃,模型参数从7B到400B不等,支持多语言,在文本生成、推理、代码等任务上表现优异。
- 应用:学术研究、行业微调、多模态理解等。
- 参考:
2. 智谱AI GLM 系列
- 代表模型:ChatGLM、GLM-4、GLM-4-9B(支持多模态)
- 特点:中文能力突出,支持长上下文(最高1M token),工具调用和多模态能力强大。
- 应用:中文对话、多模态理解、行业知识问答等。
- 参考:
3. 阿里巴巴 Qwen 系列(通义千问)
- 代表模型:Qwen、Qwen2(0.5B~72B)
- 特点:多语言支持好,参数灵活,社区衍生模型数量全球领先,中英文综合能力突出。
- 应用:多语言对话、代码生成、企业级定制。
- 参考:
4. DeepSeek 系列(深度求索)
- 代表模型:DeepSeek-V2、DeepSeek Janus
- 特点:性价比高,技术创新(如MLA),支持中英文,适合移动端和推理优化。
- 应用:AI工程、移动端部署、高性价比企业方案。
- 参考】:
5. BLOOM 系列
- 代表模型:BLOOM、BLOOMZ
- 特点:多语言(46种语言+13种编程语言),训练过程透明,学术研究友好。
- 应用:多语言文本生成、学术研究、国际项目。
- 参考:
6. Falcon 系列
- 代表模型:Falcon 180B
- 特点:性能接近GPT-3.5,商业友好,适合高精度文本处理。
- 应用:自然语言处理、企业级文本分析。
- 参考:
7. EleutherAI 系列
- 代表模型:GPT-NeoX、GPT-J
- 特点:社区驱动,灵活易用,适合中小规模项目和学术实验。
- 应用:文本生成、情感分析、原型开发。
- 参考】:
8. OPT 系列(Meta)
- 代表模型:OPT-175B
- 特点:开源GPT-3替代方案,适合学术和非商业研究。
- 应用:学术研究、自然语言处理教学。
- 参考】:
9. T5 系列(Google)
- 代表模型:T5
- 特点:文本到文本的统一框架,多任务微调能力强。
- 应用:翻译、摘要、问答等。
- 参考】:
10. Red Pajama(Together AI)
- 代表模型:Red Pajama
- 特点:社区开源,对标GPT-4,适合研究和多模态实验。
- 参考】:
11. 其他补充
- XGen(Salesforce):适合长上下文处理。
- Cerebras-GPT:针对AI硬件优化,推理速度快。
- OpenLLaMA:社区对Llama的衍生优化。
总结与趋势
- 全球主流:Llama、GLM、Qwen、DeepSeek、BLOOM、Falcon等。
- 国内代表:GLM、Qwen、DeepSeek已成为全球开源生态的中坚力量。
- 社区与生态:Hugging Face、GitHub等平台是模型分发和微调的主要阵地,衍生模型和工具链极为丰富。
- 权威参考:可关注Hugging Face OpenLLM榜单、英伟达GTC开发者采用趋势图。
天工:
目前主流的开源模型体系主要分为三类:
-
Prefix Decoder 系:输入端采用双向注意力机制,输出端采用单向注意力机制。代表模型包括 ChatGLM 系列(如 ChatGLM、ChatGLM2)。
-
Decoder-only 系:整个模型只使用解码器结构,基于 Transformer 架构。这是当前大多数大语言模型采用的结构,如 LLaMA、Qwen(通义千问)、DeepSeek 等。
-
Encoder-Decoder 系:包含编码器和解码器两部分,适用于需要理解输入并生成输出的任务。虽然在大语言模型中不如前两者常见,但在特定任务中仍被广泛使用。
这些模型体系在结构设计、训练目标和应用场景上各有特点,推动了开源大模型生态的快速发展。
kimi:
目前主流的开源模型体系可按模型架构与训练范式划分为三大类:
-
Prefix Decoder 体系
- 编码阶段采用双向注意力,解码阶段为单向注意力(即输入双向、输出单向)。
- 代表模型:ChatGLM、ChatGLM2、U-PaLM。
- 特点:综合了 Encoder-Decoder 与 Causal Decoder 的优点,但训练效率相对较低。
-
Causal Decoder 体系
- 全程采用自回归式单向注意力(从左到右),预训练与下游任务一致。
- 代表模型:LLaMA 系列及其衍生物(Alpaca、Vicuna 等)。
- 特点:训练效率高,Zero-shot 与少样本能力强,文本生成效果好。
-
Encoder-Decoder 体系
- 编码器用双向注意力,解码器用单向注意力。
- 代表模型:T5、Flan-T5、BART。
- 特点:在理解类 NLP 任务上表现突出,但长文本生成性能与训练效率相对较弱。
此外,在生态与许可层面,2025 年形成了「欧美系-中国系-混合型」三极格局:
- 欧美系:LLaMA 3、Mistral 7B 等,社区活跃,商用限制较多。
- 中国系:DeepSeek-R1、Qwen2.5-MoE 等,训练成本低、中文优化好。
- 混合型:GLM-4 等,部分开源+商业授权,兼顾合规与定制需求。
以上分类与格局构成了当前主流的开源大模型体系。
腾讯元宝:
目前主流的开源模型体系主要分为以下几大类别:
国际主流开源模型体系
1. GPT系列(Generative Pre-trained Transformer)
由OpenAI发布的一系列基于Transformer架构的语言模型,包括GPT、GPT-2、GPT-3等。GPT模型通过在大规模无标签文本上进行预训练,然后在特定任务上进行微调,具有很强的生成能力和语言理解能力。
2. LLaMA系列(Large Language Model Meta AI)
由Meta AI发布的开源模型,提供7B、13B、33B和65B等不同参数规模版本。LLaMA训练数据以英语为主,采用pre-normalization、SwiGLU激活函数和旋转位置编码RoPE等技术改进。
3. BLOOM系列
由BigScience项目推出的大规模多语言模型,支持超过50种语言和13种编程语言。BLOOM拥有176B参数,采用相对位置编码ALiBi技术,在多语言适应性方面表现优异。
4. OPT系列(Open Pre-trained Transformer)
Meta AI推出的开源模型系列,提供从125M到175B的不同参数规模模型,开放且透明,适合研究和开发者使用。
国内主流开源模型体系
1. 文心一言(ERNIE Bot)
百度推出的文心大模型系列,基于ERNIE 4.0架构,支持多模态交互,适用于对话生成、文本理解、信息抽取等多个任务,强调知识增强和多任务学习。
2. ChatGLM系列
清华大学与智谱AI合作推出的对话生成大模型,基于GLM架构,支持中英双语任务。ChatGLM-6B具有62亿参数,在INT4量化下仅需6GB显存即可部署。
3. 通义千问(Tongyi Qianwen)
阿里巴巴达摩院推出的大模型系列,适用于中文文本生成和理解任务,支持多种参数规模,着重于企业级应用和多场景落地。
4. DeepSeek系列
包括DeepSeek-V3、DeepSeek-R1等模型,采用MoE架构和671B参数,在性能上超越所有已发布的开源模型,成为极具性价比的顶尖大模型之一。
技术架构创新
1. MoE架构(Mixture of Experts)
DeepSeek-V3、Qwen等模型采用MoE架构,通过动态资源分配机制实现高效推理,推理速度提升20%,显存占用减少15%。
2. 滑动窗口注意力机制
Gemma 3等模型采用滑动窗口注意力,调整全局与局部注意力比例为5:1,大幅减少KV缓存内存需求。
3. NoPE优化
Kimi K2等模型采用NoPE优化方案,挑战传统位置编码方式,提升模型的泛化能力和训练稳定性。
生态发展趋势
根据蚂蚁开源发布的《全球大模型开源开发生态全景图》,当前开源模型生态呈现以下特点:
- 中美主导:中美两国开发者合计贡献超四成核心力量,中国厂商更倾向于开放权重的开源模型路线
- AI Coding工具爆发:AI编程工具成为开源社区最热门的领域,如Gemini CLI开源仅3个月星标数突破6万
- MoE架构普及:万亿参数模型成为新趋势,DeepSeek、Qwen、Kimi等旗舰模型均采用MoE架构
这些开源模型体系各具特色,在性能、效率、多语言支持等方面都有显著优势,为AI研究和应用提供了丰富的选择。
百度ds:
目前主流的开源大模型(LLM)体系主要包括以下几个代表性系列:
主流开源模型体系
-
GPT系列
由OpenAI发布,基于Transformer架构,具有强大的生成能力和语言理解能力。虽然GPT-3等早期版本开源,但后续版本(如GPT-4)多为闭源模型。 -
BERT系列
Google推出的双向预训练语言模型,擅长语言理解和表征任务,广泛应用于文本分类、问答等下游任务。 -
XLNet
由CMU和Google Brain开发,采用自回归方式预训练,能建模全局依赖关系,生成能力优于传统自回归模型。 -
RoBERTa
Facebook在BERT基础上的改进版本,通过更大规模数据和更长时间训练,性能显著提升。 -
T5(Text-to-Text Transfer Transformer)
Google提出的多任务预训练模型,将各类NLP任务统一为文本到文本的格式,通用性强。 -
Llama系列
Meta(原Facebook)开源的大模型系列,如Llama 3,因其高性能和社区活跃度成为当前最受欢迎的开源模型之一。 -
Qwen(通义千问)系列
阿里巴巴推出的开源模型,覆盖从基础模型到多模态版本(如Qwen2.5-VL),在复杂文档处理和视觉理解方面表现突出。 -
DeepSeek系列
深度求索公司发布的模型,如DeepSeek-V3.2-Exp,采用稀疏Attention架构,优化了计算效率和长序列处理能力。
技术趋势与特点
- 科技大厂主导:当前开源模型主要由Meta、阿里等科技大厂推动,学术机构因资源限制逐渐退出竞争。
- 多模态发展:如Qwen2.5-VL、Kwai Keye-VL等模型融合视觉与语言能力,支持复杂任务(如视频理解、文档分析)。
- 轻量化与效率:部分模型(如DeepSeek)通过架构优化降低资源消耗,更适合端侧部署。
更多推荐



所有评论(0)