前言

笔者文章 架构大突破! DeepSeek-V3.2发布,五分钟速通DeepSeek-V3.2核心特性为大家系统剖析了DeepSeek-V3.2 实验版的核心特性,并重点解读了其开创性提出的一项全新的技术 DeepSeek Sparse Attention(DeepSeek稀疏注意力机制),简称DSA

两个月后,2025年12月1日 DeepSeek-V3.2 正式版重磅发布,该版本在实验版的基础上,进一步引入了可扩展的GRPO训练框架,并结合大规模合成Agent任务数据集,通过海量强化学习后训练,使模型性能实现全面突破。其在数学、编程及智能体能力等方面的表现均显著领先,已跻身全球顶尖大模型的第一梯队。

而就在不久之前,DeepSeek还推出了DeepSeek-Math-V2。该模型采用了一种全新的训练范式,通过“左右互搏、自我迭代”的方式持续进化,在CNML(中国全国高中数学联赛)和普特南数学竞赛中表现卓越,成绩甚至超越了GPT-5-Thinking等一系列强竞品。

近期DeepSeek这两大动作可谓震撼人心,让国内大模型研究者倍感骄傲。作为爱国大模型博主,笔者自然也是要研究一下这两个模型的核心思想,不少人反映DeepSeek-Math-V2和DeepSeek-V3.2论文篇幅较长,阅读困难。本期分享笔者就使用通俗易懂的语言对DeepSeek-Math-V2与DeepSeek-V3.2正式版的核心设计思想与关键技术进行深入解读,力求清晰系统地呈现其创新之处与技术脉络,本篇内容参考了秘塔搜索和B站AI UP主视频分析并自我理解,大家多多指教~

在这里插入图片描述

一、DeepSeek-Math-V2:基于“自我博弈”的数学推理突破

如果一个人既是运动员、同时还是裁判、并且还是负责监督裁判的裁判(套娃),并最终在这种左右互搏的循环中不断突破能力极限,这听起来似乎是一种未来的人类进化范式。如今,DeepSeek-Math-V2 模型率先将这一构想变为现实。它提出的自验证数学推理训练法,通过让模型“一人分饰三角”,在自我博弈中实现了能力的无限进化。

凭借这一创新训练范式,DeepSeek-Math-V2的数学能力一路飞升。在CNML中国全国高中数学联赛级赛题上,得分碾压GPT-5模型的Thinking-High模式,在北美杰出大学生数学竞赛,普特南数学竞赛中,DeepSeek-Math-V2解决了12 道题目中的 11 道,取得近乎满分的成绩,甚至超越了任何人类参赛者的历史最高分(90分)。

在谷歌DeepMind提出的IMP-ProofBench数据集上,DeepSeek-Math-V2同样取得金牌级别成绩,大幅领先Gemini Deep Think模型。 Gemini DeepThink模型是Gemini 3模型的强化版,还在测试阶段。反观DeepSeek-Math-V2 继续秉持着开源策略。

Math模型一贯被视作下一代通用模型的序章,遥想DeepSeek-R1就是使用了DeepSeek-Math-V1的GRPO算法,那现在DeepSeek-Math-V2提出的自验证训练方法是否将成为未来DeepSeek-R2训练的基石呢?

1.1 核心架构:生成器、验证器和元验证器 “三位一体”

DeepSeek认为目前阻碍大模型智力进一步发展的核心因素在于:训练模型的过程中过于强调让模型生成正确的答案,而忽视答案背后的推理或者思考过程是否正确。一个典型的现象是大模型可以在AIME等有标准答案的数学竞赛中取得高分,但一旦面对数学证明问题,回答就变得一塌糊涂。DeepSeek团队分析输出正确答案并不意味着模型的推导也正确。要想强化大模型的推导能力,就要用数学证明题来训练大模型了!

在这里插入图片描述

然而,如何评判模型对证明题的输出质量好坏呢?DeepSeek 的解决方案是构建一个 自我博弈、自主学习 的进化系统。该系统包含三个模型,构成了一个“三位一体”的协同架构:

  1. 生成器:扮演“学生”角色,负责解答数学证明题,生成具体的解题过程。
  2. 验证器:扮演“老师”角色,负责评估生成器解题过程的好坏,并给出评分与评语。
  3. 元验证器:扮演“校长”角色,负责评估验证器评分与评语的合理性,确保“老师”的评判标准是可靠的。

这一架构如同一个能够自我进化的微型教育生态系统,通过三个角色的相互监督与博弈,推动整体推理能力的螺旋上升。

在这里插入图片描述

1.2 训练流程:从“专家引导”到“完全自进化”

DeepSeek-Math-V2 的训练分为两个主要阶段:冷启动(有监督)阶段迭代训练(自进化)阶段

1.2.1 冷启动阶段:构建初始能力基座

冷启动阶段DeepSeek准备了17000多条数据,每条数据包含了数学证明题、解题过程和人类专家对于解题过程的评分,评分分为3档,分别是0分、0.5分和1分。冷启动阶段的目标是在少量人类专家数据的引导下,为三个角色赋予初始的专业能力。初始的生成器、验证器和元验证器最开始都是DeepSeek-V3.2模型的一个微调版本。

第一步:训练“老师”(验证器)
在这三个模型的协同系统中,最重要的是验证器,只有高水平老师才能教出高水平学生。首先,通过GRPO算法让验证器学会对不同类型题目进行打分,并且和R1模型的训练过程类似,在验证器训练过程中会设置格式奖励使验证器生成每个数学证明过程的评价文本,相当于让验证器学会写解题评分的评语,也就是解题评分的思考链。

在这里插入图片描述

第二步:训练“校长”(元验证器)

之所以要搭建这三个模型的训练系统是希望模型避免套答案而胡编乱造思考过程,同样问题也会出现在验证器的训练中,验证器初训后,可能为了迎合评分而编造不靠谱的评语。

为解决这个问题,DeepSeek先准备了一些测试问题,也就是输入了一些数学证明题和证明过程,让验证器打分并给出评分文本,然后让人类专家对验证器给出的结果审核评分,同样是0分,0.5分,1分,用于判断验证器的评价是否靠谱。但人类不可能无休止的陪跑。DeepSeek此时就开启了套娃模式,训练了一个专门用于评估验证器的验证器对验证器的评语打分,也就是所谓的元验证器。

和验证器训练流程高度类似,元验证器的训练同样是采用GRPO算法代入数学题+解题过程+验证器对解题过程的评语,强化学习目标是让元验证器学会对验证器评语进行打分,通过设置格式奖励使其生成对验证器评语的评语,直观表述就是校长判断老师改卷子的思路有没有问题。

当然这时候有同学就会疑问,那这个对验证器评分的元验证器是不是也需要被监督,这样层层套娃啥时候是个头?这里DeepSeek认为没有必要嵌套了,现在已经嵌套了三层了,作为最顶层的元学习器,它的任务其实是越来越轻了。毕竟校长不用上课,只需要管管老师就可以了。因此DeepSeek发现对于元学习器来说往往训练一轮就能获得很高的准确率。当元验证器完成这轮训练后,DeepSeek立马使用元验证器对验证器进行再次训练,以元验证器的输出结果作为奖励信号,训练得到一个增强版的验证器,进一步提升了验证器能力。

(这里插个题外话,感觉计算机领域幸运数字除了2就是3了,3也是一个很有意思的数字,例如3次握手,这么一看苏联的3进制计算机是不是也很有搞头)

在这里插入图片描述

第三步:老师(验证器)指导学生(生成器)

接下来就以增强版验证器的评判标准作为奖励信号,使用 GRPO 算法训练生成器。但比较特殊的是,生成器生成的内容不仅仅是证明过程,还要输出一段对证明过程的自我评价,相当于自己给自己写一段评语。验证器在对生成器进行评估时也是通过两个方面,一个方面是判断证明过程是否正确,另一方面是元验证器和验证器同时参与评分,验证器对生成器生成的证明过程评分,元验证器对生成器生成的自我评价评分。然后将解题过程正确性和自我评价合理性以3:1的比例加权获得奖励信号。

在这里插入图片描述

总结以上过程就是:先练老师,再练校长,校长调教老师,老师和校长一起调教学生的四步走战略。

在这里插入图片描述

第四步:能力融合与巩固(RFT算法)

冷启动的最后一步是 RFT(Rejection Fine-Tuning,拒绝采样微调) ,这是一个画龙点睛的设计。其核心目的是将三个角色在强化学习探索中积累的“满分经验”融合到一个单一模型中,形成一个具备做题、改题、督导三重能力的 全能基座模型,为后续的自进化循环打下坚实基础。经过验证,合并后的模型在做题、改题和监督能力上都有提升。

RFT的具体合并流程如下:

  1. 第一步,对数据集进行自动化标注,这里再次将专家数据集代入到生成器中,生成器会创建一个证明过程+自我评语,同时让验证器对每一条证明结果都创建n个独立的评分和评语。然后只要在n个评分中存在0.5分或者0分这种差评,系统就自动让元验证器对每一条差评进行m次的独立验证,只要超过半数的元验证器觉得验证器的差评是对的,那么就认定是一个有效的差评。而如果对一个解题过程中有3次(可以人工设置)的差评,则本次证明给予0分或0.5分,反之给予1分。这些不到1分的数据被称为采样数据,而满分数据被称为拒绝采样数据。接下来将拒绝采样数据代入对验证器模型进行训练,这个自动挑选数据的过程就被称为自动化标注。

在这里插入图片描述

  1. 第二步带入拒绝采样数据来进行有监督微调算法,这一步的本质是让模型把强化学习中做对的题彻底记住,相当于巩固先前经验。需要注意的是,这里对融合模型训练的数据被分为三类:一类是由验证器产生的1分数据,输入是数学题+证明过程+自我评价,而输出是老师评价+评分,第二类是由生成器产生的1分数据,输入是数学题,输出是证明过程+自我评价,第三类是由元验证器产生的1分数据,输入时数学题+证明过程+老师评价,输出是对老师评价的评价+老师评价质量打分评分,这种混合数据集的构成使得生成器同时具备答题、改题和督导三种模式,变成三合一的大模型。与此同时该模型就成为了下一步骤的基座模型。

    这个训练思路理解起来非常简单,术业有专攻,强化学习的探索过程往往让生成能力和验证能力在参数空间上渐行渐远,而通过RFT我们将两者在探索中积累的“满分经验”熔入一个模型中,这样不仅避免了维护多个模型的割裂,也让下一轮迭代模型的出世模型直接站在巨人的肩膀上,称为一个同时具备最强做题能力和最强改题能力的“全能基座”,到此模型冷启动阶段就完成了。

在这里插入图片描述

在这里插入图片描述

1.2.2 迭代训练阶段:开启全自动自进化循环

冷启动阶段完成后,系统便进入可完全脱离人类标注的 自进化循环

  1. 自动化数据生产与标注:将新的、无标签的数学问题输入系统,复用冷启动阶段的自动化标注流程(生成器生成 → 验证器N次评分 → 元验证器M次验证),产出一批带有质量标签(0/0.5/1分)的新数据。
  2. 训练“老师” :利用新产出的全量数据(包含正例和反例)对验证器进行 GRPO 训练,提升其鉴别能力。
  3. 训练“学生” :用增强后的验证器作为裁判,对生成器进行 GRPO 训练,使其生成更优的解题方案。
  4. 新一轮融合:收集本轮循环中产生的所有高质量(1分)数据,再次通过 RFT 算法对基座模型进行微调,生成能力更强的 新一代三合一模型

此过程周而复始,形成一个 完全自主的“左右互搏”进化闭环,即 自验证数学推理训练法

值得注意的是,该算法依赖海量的模型调用以生成优质训练数据。而 DeepSeek-V3.2 所采用的 DSA(稀疏注意力)机制,已将模型调用成本降低了 30%-70% 。从这个角度看,自验证数学推理训练法堪称 DeepSeek 为自身技术栈量身定制的“王牌训练法”。

在这里插入图片描述

二、DeepSeek-V3.2:技术自主创新下的开源破局者

上面内容详细讲述了DeepSeek-Math-V2的训练核心算法,但DeepSeek探索的脚步从未停止,12月1日,DeepSeek-V3.2诞生了。
在OpenAI、Claude、Gemini几乎统治整个大模型技术领域的今天,DeepSeek-V3.2模型的开源无疑是为中国大模型甚至整个开源大模型界注入了一针强心剂,让大家真正看到了技术创新带来的大模型性能革命。

11月20日,跨时代的Gemini 3.0 横空出世(关于Gemini 3.0 的介绍可看笔者文章 Gemini3.0深度解析,它在重新定义智能,会是前端工程师噩梦吗?凭借其强大的综合性能和编程能力以一己之力将大模型技术应用推向下一阶段。大家在兴奋之余早已焦急等待国产DeepSeek新模型何时才能问世,要如何应战!而不到两周DeepSeek就立马告诉大家,“他强任他强,老子有锋芒”。虽然没有海外在线大模型深厚的技术积累、海量原始数据,但DeepSeek仍然通过自主技术创新,甚至通过保持更快的创新速度与国外大模型厂商一决高下,这难道不就是中国的“侠”义精神。

2.1 DeepSeek-V3.2进化路线

DeepSeek-V3.2 的成功并非一蹴而就,它建立在一条清晰的演进路线上:

  1. 8月下旬:发布 V3.1 模型,引入混合推理架构,R1 时代宣告结束。
  2. 9月底:发布 V3.2-EXP 实验版,提出革命性的 DeepSeek 稀疏注意力机制,模型调用成本骤降 50%
  3. 11月底:推出 DeepSeek-Math-V2,开创 自验证数学推理训练法,以“左右互搏”范式大幅提升数学能力。

正是这一系列坚实的技术积淀,为 2025年12月1日发布的 DeepSeek-V3.2 正式版 提供了与 Gemini 3.0 等顶尖模型一较高下的资本。正式版不仅整合了前述所有技术创新,更开创性地提出了三大核心突破:

  • 可扩展的GRPO训练框架:为强化学习后训练提供了更稳定、高效的架构基础。
  • 无偏KL估计与Off-Policy序列掩码技术:有效解决了GRPO在长周期训练中常见的稳定性问题。
  • 大规模合成Agent任务数据集创建流水线:动用了超过 1800个智能体85万组提示词,构建出海量、高质量的Agent训练数据。

最终,凭借远超预训练数据量的超大规模强化学习后训练(规模超过预训练的10倍以上),DeepSeek-V3.2 实现了性能极限的突破。

在这里插入图片描述

2.2 DeepSeek-V3.2模型概览:双模型开源与性能定位

本次DeepSeek共开源了两款模型:

  • DeepSeek-V3.2:通用主力模型。
  • DeepSeek-V3.2-Speciale:专注于长链复杂问题求解的实验性模型。

根据官方给出的数据,DeepSeek-V3.2在编程、数学、Agent领域均达到了GPT-5模型的水准,是开源界的No.1。 据很多博主实际评测反馈,DeepSeek-V3.2在编程能力比上一代有很大提升,不仅思考链更加简单清晰,而且编程意愿提升明显,一次性编写上千行代码早已是家常便饭。

在这里插入图片描述

虽然相比于目前第一梯队的Gemini3 Pro和Claude4.5 Sonnet还有10%左右的性能差距。此外,模型展现了强大的兼容性,其“思考模式”已增加对 Claude Code 软件的原生支持(需将模型名改为 deepseek-reasoner)。但需注意,对于 Cline、RooCode 等使用非标准工具调用的组件,官方建议仍使用“非思考模式”以获得最佳兼容性。

2.3 DeepSeek-V3.2核心突破:Agent性能跨越提升

这次DeepSeek-V3.2模型最令人瞩目的就是Agent性能的巨大提升,和Gemini3, Claude 4.5等模型的差距已经不到5%, 并且deepseek首次引入“思考模式下工具调用”的功能,允许模型在单轮任务调用过程保持多步工具调用思维链记忆,也就是像人一样边思考边调用工具,从而大幅提升多步调用工具的前后一致性,显著提升模型Agent性能。

在这里插入图片描述

2.4 DeepSeek-V3.2-Speciale:极致的实验探索

除了DeepSeek-V3.2之外,本次DeepSeek还同步开源了一款实验性质的模型,DeepSeek-V3.2-Speciale。

和DeepSeek-V3.2不同,Speciale模型在训练过程中采用了纯推理数据进行训练,并且放宽了普通模型都会有的推理长度惩罚机制,使得Speciale更加擅长通过长思考来解决问题,同时还引入了DeepSeek-Math-V2的自验证数学推理训练法,借助左右互搏来突破数学能力极限。

根据评测结果来看,DeepSeek-V3.2-Speciale模型在各主流评测数据集上,无论是数学、编程还是HLE、Agent性能等各个方面,均达到了Gemini 3.0 Pro的水平,并且目前Speciale模型权重也同步开源,

如果要调用speciale的api, 还需要更换如下图所示的base_url. 虽然经过实测Speciale模型确实很强,对于输入的复杂数学编程问题均能解决,但大家还要注意Speciale模型目前处于实验阶段,只能用于解决复杂数学编程问题,无法很好应对普通对话问题,官方限定该模型与12月15日API正式下线,但谁又能知道这是不是预示着下一代speciale模型已经在训练之中了。

在这里插入图片描述
在这里插入图片描述

三、总结展望

2025年的岁末回望,作为国产大模型的杰出代表,DeepSeek在过去一年中完成了一场令人惊叹的技术跃迁。从架构创新到训练范式突破,从开源生态建设到顶尖性能对标,它的每一步都坚实而清晰。本文对 DeepSeek-Math-V2DeepSeek-V3.2 的解读,也正是这一年来追踪与见证其技术进化的一个缩影。

笔者的文章追随了一整年DeepSeek的更新轨迹与解读,不仅仅只为大家介绍了DeepSeek模型的最新技术,看着DeepSeek一步一步成长为世界之巅,更希望通过笔者微博的努力,为大家科普大模型的基础知识。

未来时代大模型一定会是最基础的设施,和现在的PC,手机一样,在当前中美AI角力的关键阶段,大家谁更拥抱AI谁就掌握未来。笔者呼吁并期待:给予像DeepSeek这样坚持技术突破与开源开放的国产模型更多的关注、使用与反馈。每一次讨论、每一行代码、每一个基于其构建的应用,都是在为这片技术土壤增添养分。众人的支持,将是所有创新者最坚实的后盾,足以让中国站上世界AI之巅。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐