美团开源LongCat-Flash:5600亿参数MoE模型,有什么技术上的突破??
美团LongCat团队发布5600亿参数LongCat-Flash混合专家模型,创新采用Zero-Computation Experts和Shortcut-Connected MoE技术,实现动态计算资源分配和通信效率优化。模型通过多阶段训练策略和稳定性控制,在智能体任务、代码生成和推理能力上表现优异,推理速度达100 token/秒。项目已全面开源,为AI智能体研究提供新标杆。
简介
美团LongCat团队发布5600亿参数LongCat-Flash混合专家模型,创新采用Zero-Computation Experts和Shortcut-Connected MoE技术,实现动态计算资源分配和通信效率优化。模型通过多阶段训练策略和稳定性控制,在智能体任务、代码生成和推理能力上表现优异,推理速度达100 token/秒。项目已全面开源,为AI智能体研究提供新标杆。
今天美团 LongCat 团队发布了 LongCat-Flash 模型,这是一款总参数量达 5600亿 的混合专家模型(Mixture-of-Experts, MoE),在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务。
一、核心创新:动态计算与通信优化
1. Zero-Computation Experts(零计算专家)
传统MoE模型中,每个token都会激活固定数量的专家,但LongCat-Flash引入了“零计算专家”机制,允许模型根据上下文重要性动态分配计算资源。简单来说,重要的token会激活更多专家,不重要的则激活较少甚至零计算专家,直接返回输入值,不进行额外计算。
- 每token激活参数量在 186亿~313亿 之间波动,平均约为 270亿;
- 通过PID控制器动态调节专家偏置,保持计算负载均衡;
- 在相同计算预算下,相比固定激活策略,验证损失显著降低。
2. Shortcut-Connected MoE(快捷连接MoE)
MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构,通过跨层快捷连接,将密集FFN计算与MoE层的通信操作重叠执行,大幅提升训练和推理效率。
- 训练损失与基线模型几乎一致,不影响模型质量;
- 推理时采用单批次重叠(SBO)调度,理论时间每输出token(TPOT)降低近50%。
二、训练策略:高效扩展与稳定性保障
1. 超参数迁移与模型增长
- 通过宽度缩放规则,将小模型(宽度768)的最佳超参数迁移到大模型(宽度6144),大幅节省调参成本;
- 采用模型增长初始化,将训练好的半规模模型堆叠成完整模型,加速收敛并提升最终性能。
2. 多维度稳定性控制
- 路由器稳定性:监控专家权重相似度和梯度范数比,防止负载均衡损失压制语言建模损失;
- 激活稳定性:引入隐藏z-loss,抑制异常大幅激活,避免训练中的数值溢出;
- 优化器稳定性:将Adam的ε设为极小的1e-16,避免梯度二阶矩被淹没。
三、多阶段训练与数据策略
1. 预训练阶段
- 使用超过20万亿token的多语料数据,涵盖网页、书籍、代码等;
- 采用两阶段数据混合策略,逐步提升STEM和代码数据的比例至70%;
- 支持128K长上下文,适用于长文档理解和代码库级任务。
2. 中训练与后训练
- 中训练:增强推理与代码能力,使用合成数据和知识图谱构建高质量问题;
- 后训练:针对智能体任务,构建多智能体合成框架,生成高难度、多轮交互的任务数据;
- 涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。
四、推理与部署:高吞吐、低延迟
1. 系统级优化
- 使用多token预测(MTP) 作为推测解码的草案模型,接受率超90%;
- 采用分层传输和分层量化,减少KV缓存传输开销;
- 支持FP8量化,在几乎不损失精度的情况下提升吞吐量。
2. 实测性能
- 在H800上推理速度达 100 token/秒,成本低至 $0.7 / 百万输出token;
- 在终端任务(TerminalBench)上表现优异,得分39.51,排名第二;
- 在自建智能体评测集VitaBench上取得最高分24.30,展现强大复杂任务处理能力。
五、综合评测结果
LongCat-Flash在多项基准测试中表现优异:
- 通用能力:MMLU 89.71,CEval 90.44,ArenaHard-V2 86.50;
- 数学推理:MATH500 96.40,AIME25 61.25;
- 代码生成:HumanEval+ 65.85,TerminalBench 39.51;
- 智能体工具使用:τ²-Bench 电信场景73.68,VitaBench 24.30;
- 安全性:在有害内容、犯罪信息、隐私保护等维度表现突出。
六、开源与社区贡献
LongCat-Flash已全面开源,包括模型权重、推理代码和部分训练数据,推动MoE架构、高效训练与智能体研究的进一步发展。
- 项目地址:https://github.com/meituan-longcat
- Hugging Face:https://huggingface.co/meituan-longcat
- 在线体验:https://longcat.ai
LongCat-Flash不仅在模型架构上实现创新,更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现,使其成为业界领先的开源MoE模型之一,有望推动AI智能体在真实场景中的广泛应用。
七、 AI大模型学习和面试资源
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)