超越 DeepSeek-R1！Seed-Thinking-v1.5：字节跳动开源MoE架构推理模型，200B总参数仅激活20B，推理效率提升5倍

该模型基于混合专家(MoE)架构构建，总参数量达到200B级别但每次推理仅激活20B参数。通过动态路由机制，系统能根据任务类型自动选择最合适的专家模块组合，在保持计算效率的同时实现复杂推理能力。其训练框架集成了强化学习算法与数据增强策略，采用超过百万条经人工验证的数学题、编程问题和科学问答作为训练基底。特别设计的流式生成系统(SRS)通过异步处理机制，将长文本生成效率提升300%。

纯牛马111

256人浏览 · 2025-04-19 15:35:14

纯牛马111 · 2025-04-19 15:35:14 发布

Seed-Thinking-v1.5 是什么

Seed-Thinking-v1.5

该模型基于混合专家(MoE)架构构建，总参数量达到200B级别但每次推理仅激活20B参数。通过动态路由机制，系统能根据任务类型自动选择最合适的专家模块组合，在保持计算效率的同时实现复杂推理能力。

其训练框架集成了强化学习算法与数据增强策略，采用超过百万条经人工验证的数学题、编程问题和科学问答作为训练基底。特别设计的流式生成系统(SRS)通过异步处理机制，将长文本生成效率提升300%。

主要功能

多领域推理：在AIME数学竞赛题、Codeforces编程题等7类测试中平均准确率超75%
动态参数激活：根据任务复杂度自动调节激活参数量，平衡精度与速度
流式推理优化：采用三级并行架构实现每秒处理3000token的吞吐量

技术原理

混合专家架构：包含128个专家模块，通过门控网络实现动态路由
VAPO强化框架：结合价值函数与策略梯度，训练稳定性提升40%
数据增强引擎：运用对抗生成技术自动扩充训练样本多样性
HybridFlow系统：支持张量/专家/序列三级并行，训练效率提升2.8倍

资源

GitHub 仓库：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

C++调试与错误排查

资源管理是另一个关键领域，遵循RAII原则，使用智能指针（unique_ptr、shared_ptr）替代裸指针，能够有效防止内存泄漏和异常安全问题。构造函数中的初始化列表使用、拷贝控制成员的正确处理，都是减少对象生命周期错误的重要实践。通过编译器标志（如GCC的-fdiagnostics-color=always）增强错误信息可读性，或使用Clang的更有好的错误提示，都能提升排错效率。编译时错

2048 AI社区

Java SpringBoot+微信小程序+MyBatis 外卖（微信端）系统源码|前后端分离+MySQL数据库

2048 AI社区

上下文工程驱动智能体向 “连续性认知”跃迁

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运