DeepSeek-V3.1 是 DeepSeek-V3 的重要升级版本,于 2025 年 8 月发布。它不仅扩展了上下文长度,还引入了多项核心技术改进,特别是在推理能力、Agent 任务执行效率和多任务处理方面有显著提升。

下面是一个简要的对比表格,帮你快速了解 V3.1 相比 V3 的主要改进:

特性维度 DeepSeek-V3 DeepSeek-V3.1
版本发布 2024年3月24日(V3-0324) 2025年8月21日
架构 混合专家模型(MoE) 混合推理架构(融合V3对话能力与R1推理能力)
上下文长度 64K 128K
推理模式 支持思考模式,但效率相对较低 优化思考模式,响应速度更快,token消耗减少20%-50%
编程能力 较强,但复杂任务处理有时不足 显著增强,在Aider评测中达71.6%,超越Claude 4 Opus
Agent能力 基础任务支持 大幅优化,工具调用与智能体任务表现提升明显
模型开源 采用MIT协议开源 继续开源,Base模型新增8400亿token训练
API价格 较低 2025年9月6日起调整(输入0.5元/百万tokens缓存命中,4元缓存未命中,输出12元/百万tokens)
1. 混合推理架构(V3 + R1 融合)

此前的 DeepSeek-V3 擅长对话但推理能力较弱,而 DeepSeek-R1 强于推理但对话体验较僵硬 。V3.1 将两者的能力整合到一个模型中,采用 动态路由机制,根据问题复杂度自动选择处理方式 :

  • 简单任务:由 V3 部分处理,保证响应速度。

  • 复杂推理:激活 R1 模块,进行深度思维链推理。

  • 混合任务:V3 和 R1 协同工作,平衡效率和准确性 。

这使得 V3.1 在数学证明、复杂逻辑推理、代码生成等任务中表现更优,同时在日常对话中保持自然流畅 。

2. 更高的思考效率

V3.1 的深度思考模式(DeepThink) 经过优化,相比于 R1,在输出 token 减少 20%-50% 的情况下,各项任务的平均表现与 R1-0528 持平 。这意味着回答更精准、速度更快,适合高性能场景。

 3. 更强的 Agent 能力

V3.1 在智能体任务规划、工具调用和多步任务执行方面有较大提升 ,例如:

  • 代码自动调试(SWE-bench 评测得分 66,远超 V3 的 38.8)。

  • 终端命令行操作(Terminal-Bench 测试得分 31.3,对比 V3 的 13.3)。

  • 多轮搜索和知识检索(在 BrowseComp、HLE 等测试超越 R1)。

这使得 V3.1 更适合自动驾驶智能体、自动化运维和复杂决策应用。

 4. 更强大的多语言处理

V3.1 优化了对 100 多种语言 的支持,特别是亚洲语言(如中文、日语)及资源较少的语种,使其在翻译和专业文本处理方面表现更佳 。

 5. 128K 长上下文支持

虽然 V3 也支持 128K 上下文 ,但 V3.1 在此基础上通过更长和更高质量的训练数据(额外增加 8400 亿 token 训练),提升了长文档的理解和分析能力,适用于法律文本、技术文档、学术论文阅读等场景。

6. API 价格调整

2025 年 9 月起,DeepSeek 对 API 价格进行了调整 :

  • 输入:$0.56 / 百万 token(缓存未命中)

  • 输出:$1.68 / 百万 token 

虽然比 V3 略有上涨,但相比竞争对手(如 GPT-4、Claude 4),仍然便宜非常多 。

总结

DeepSeek-V3.1 不仅仅是一次常规升级,而是深度融合了对话与推理能力的“混合智能模型”。它显著强化了编程、复杂任务自动化和逻辑推理能力,同时保持了良好的对话体验和成本优势。如果你需要更强的 Agent 能力或者处理复杂问题,V3.1 会是比 V3 更好的选择。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐