Deepseek发布新模型！DeepSeek-Math-V2：可自证数学推理的首个开源金牌模型！

DeepSeek开源了DeepSeek-Math-V2，这是首款达成IMO金牌级水平的开源模型，核心突破为"可自证的数学推理"。该模型采用"生成-验证"双向增强飞轮方法，包含证明生成器、证明验证器和元验证器三个组件，形成强化学习闭环。实验显示，该模型在IMO 2025、CMO 2024和Putnam 2024等数学竞赛中表现出色，证明了可自证推理不仅是可行的，更是通往更强数学AI的必由之路。

LLand520

388人浏览 · 2025-11-28 13:14:57

LLand520 · 2025-11-28 13:14:57 发布

刚刚，DeepSeek又悄悄开源了DeepSeek-Math-V2：，核心突破为「可自证的数学推理」，是首款达成IMO金牌级水平的开源模型。model、paper都已开源。

DeepSeekMath-V2 展现出强大的定理证明能力：在 IMO 2025、CMO 2024 上达到金牌线，并在 Putnam 2024 上以扩展测试时计算斩获 118/120 的近满分成绩。虽然前路仍长，但这些结果首次表明——可自证的数学推理不仅可行，更是通往更强数学 AI 的必由之路。

一、为什么“答对”不等于“会证”？

过去一年，大模型靠「最终答案奖励」把 AIME、HMMT 等竞赛刷到饱和，但

答对≠推理对：模型可能靠“蒙”或“跳步”拿到正确答案；
定理证明无“标答”：很多题目要的是严谨推导而非数值结果，传统奖励机制直接失效。

DeepSeekMath-V2 的目标：让模型像数学家一样，自己写证明、自己挑毛病、自己改到无懈可击。

二、方法概览：一条「生成-验证」双向增强飞轮

角色	模型	作用
证明生成器 πθ	基于 DeepSeek-V3.2-Exp	写自然语言证明
证明验证器 πφ	同尺寸 LLM	给证明打分、指出漏洞
元验证器 πη	同上	检查验证器有没有“幻觉”挑错

三者组成一个可扩展的强化学习闭环：

用验证器当奖励模型，训练生成器写出更高分证明；
生成器变强后，产出更难验证的新证明，反向成为验证器的“练兵场”；
元验证器确保“挑错”本身可信，防止验证器靠 hallucination 拿高分。

三、核心组件拆解

3.1 验证器：如何训练一个“数学老师”？

数据：17 K 道 AoPS 竞赛题 + 多轮迭代生成证明，人工按 0/0.5/1 三档打分。
奖励：

R_format：必须输出“Here is my evaluation …”+ \boxed{score} 格式；
R_score：预测分与人工分越近奖励越高。

缺陷：早期验证器会“编漏洞”骗高分 → 引入元验证器。

图1：CNML 难度各分支平均证明分

3.2 元验证器：给“老师”再配一个“督导”

任务：检查验证器指出的漏洞是否真的存在、评分是否合理。
数据：专家对 1 K 份验证器输出再打分 → 训练 πη。
效果：验证器分析质量从 0.85 → 0.96，幻觉漏洞大幅下降。

3.3 生成器：学会“自我反省”

训练时要求一次输出两段：

##Solution……（证明正文）##Self EvaluationHere is my evaluation of the solution: …\boxed{score}

奖励设计：

R_Y：外部验证器给证明的真实分；
R_Z：元验证器给“自评”的准确度分；
权重 α=0.76，β=0.24 → 诚实认错比盲目自信更赚。

3.4 自动扩数据：人类标注退场

当验证器 & 元验证器足够强，用“多数元验证一致”原则自动给新证明打标签；
最近两轮训练完全取消人工标注，专家抽测一致性>96%。

四、实验：竞赛级表现

比赛	题目数	DeepSeekMath-V2 得分	人类最佳
IMO 2025	6	83.3 %（5 题全对 + 1 题部分）	金牌线≈80 %
CMO 2024	6	73.8 %（4 全对 + 1 部分）	金牌线≈70 %
Putnam 2024	12	118/120	90/120

表1：竞赛得分明细

4.1 一步生成 vs 迭代精修

CNML 难度：一步生成即全面领先 GPT-5-Thinking-High、Gemini-2.5-Pro；
IMO-Shortlist：允许最多 8 次迭代后，Best@32 提升 **+15 %**。

图2：迭代次数 vs 证明质量

4.2 高算力搜索：64×64 并行“围剿”难题

每题维持 64 份候选证明 + 64 份验证分析；
16 轮迭代后仍无漏洞→视为解决；
11/12 道 Putnam 题被完全攻克，剩余 1 道仅微小瑕疵。

https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdfhttps://hf-mirror.com/deepseek-ai/DeepSeek-Math-V2DeepSeekMath-V2: Towards Self-Verifiable Mathematical ReasoningDeepSeek

五、如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【事件触发一致性】研究多智能体网络如何通过分布式事件驱动控制实现有限时间内的共识（Matlab代码实现）

由于非光滑控制和触发条件引起的混合非线性，事件驱动控制下的有限时间共识分析比连续时间控制更具挑战性。我们研究了具有单积分器动态和标量状态的智能体，并提出了一种用于有限时间共识的分布式事件驱动控制协议，并与连续时间控制进行了比较。结果表明，使用所提出的事件驱动控制方案，智能体可以在有限时间内达成共识，并且不会出现Zeno行为。我们还得到了一个关于收敛时间的估计，并证明它不仅与初始条件和网络连通性有关

2048 AI社区

LLM(大语言模型) 的本质是概率

不会类比，不懂共情(这两点一向是被计算机背景的理工群体鄙视的)，没有泛化能力，无法举一反三，不会归纳演绎，这才是 AI 的瓶颈，而不是铺天盖地的算力，以及那些以为 scale 就够了的能力，但在本质上，只要 AI 仍然是个概率预测机器，那些 scale up 也好，scale out 也好，都仍然在做概率预测，正如它们名字一样，规模扩大了而已。这个过程最精妙的结果是，在交叉熵损失和 Softmax