【干货】论文精读系列:DeepSeek提升大模型数学与代码能力的秘诀!
DeepSeek通过专属数据、任务和反馈机制提升大模型专业能力。数学领域用'迭代式捞鱼法'收集高质量数据,代码领域保留项目级结构并引入FIM技术。通用LLM通过'三步走'数据精炼工艺提高效率。创新训练方式如GRPO使模型在数学和代码领域达到接近GPT-4水平,证明高质量数据比大规模数据更重要。
先说明一下背景:我是一名非技术出身的产品经理。精读这些论文,并不是为了钻研算法公式,而是想更理解模型的原理—这样在做产品决策、和算法沟通时,能更清楚“模型到底在想什么”。这系列文章主要写给:对大模型原理感兴趣,但一看论文就头昏、犯困的同学。我会尽量用通俗的语言,把论文的核心内容、解决的问题、创新点,以及我认为值得讨论的部分梳理出来,不去深挖复杂的数学推导。如果你发现文中有理解不准确的地方,欢迎留言指正。
今天分享DeepSeek在数学、代码这种垂直领域是如何提升 LLM 能力的,论文来源是 DeepSeek 2024年1月和2月在 arXiv 上发表的三篇文章:《DeepSeek-Math:突破开放语言模型中数学推理的极限》、《DeepSeek-Coder:当大型语言模型遇上编程—代码智能的崛起》和《DeepSeek-LLM:以长期主义扩展开源语言模型》(论文地址在文章末尾)。
如果大家用过 GPT-3.5 时代的通用大模型,你一定会觉得大模型就像「各科都能考到 60分」的全才学生,什么都会一点,却很难在某个“学科”拿高分。
而 DeepSeek 这三篇论文研究的是:如何让它在数学领域成为“数学竞赛金牌得主”、在代码领域成为“顶级程序员”。
DeepSeek 的想法很直接:想让模型像人一样学懂一门“学科”,就不能只靠记忆和模仿,而要用领域专属的数据、任务和反馈机制来“重塑”它的大脑。
一、要把模型练“专”,该喂什么样的数据?
1.数学:从互联网捞出“靠谱题库”
DeepSeekMath 团队基于 Common Crawl,花了几个月筛数学数据,他们发明了一种“迭代式捞鱼法”:
图:《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》
- 在 OpenWebMath 上选一小批高质量数学网页当“种子样本”;
- 训练一个数学分类器(fastText 模型),来召回更多类似 OpenWebMath 的数学网页;
- 用分类器再去全网“捕鱼”;
- 然后人工复核,再更新数学分类器(fastText 模型);
- 循环四次,越捞越准。
经过四轮数据收集,该团队最终得到了 3550 万个数学网页,总计 1200 亿个 token。这样一来,模型训练时使用的每一道题、每个证明、每段解题思路,几乎都是高质量的、正确的。这份语料规模不算最大,却是目前最干净的数学语料之一。
图:《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》
- 代码:让模型学会“项目级”的逻辑
DeepSeek-Coder 则从 GitHub 爬取了超过 200 万个仓库,训练 2 万亿个 token 的代码语料。但不同于多数开源模型的“文件级”清洗,它坚持做到了“仓库级”整理:
- 跨文件依赖关系保留(知道哪个模块 import 哪个模块);
- 整仓去重(防止重复学习同一个项目的不同版本);
- 标注文件路径上下文。
换句话说,DeepSeek-Coder 不仅教模型一段段代码,还让它理解整个工程的结构与风格。
在训练目标上,它引入了一个关键创新—FIM(Fill-in-the-Middle)中间补全(不是DeepSeek发明的,2022年由Bavarian等人提出):让模型学会在中间“插空”。这正对应 IDE 用户的真实行为:开发者往往是在已有项目中局部修改或补全,而不是空白页上写一整段程序。
图:《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》
实验结果如图所示:100% FIM 比例的模型虽然在代码补全场景下表现突出,但通用补全能力下降最明显。这说明 FIM 比例存在性能与泛化的权衡:比例越高,模型越擅长“中间补全”;比例越低,模型越平衡“续写”与“补空”两种能力。
DeepSeek-Coder的最终训练结果:在 HumanEval、LeetCode、DS-1000 等基准测试中,DeepSeek-Coder 33B 在无需外部工具的情况下已经能稳定超过 GPT-3.5 Turbo。
- 通用 LLM 的“长期主义”:少喂垃圾、多喂规律
《DeepSeek-LLM:以长期主义扩展开源语言模型》这篇论文提出了一个核心观点:高质量数据不仅能丰富模型知识,还能放大训练效率。
他们花了几个月时间,重新清洗了整个 Common Crawl 数据集(一份包含全网网页内容的原始语料库),但问题是:里面的内容充满噪声、广告、爬虫误采、重复页面,甚至同一个网页的多个备份。
为了让模型“吃得干净”,DeepSeek 团队设计了一套三步走的数据精炼工艺:
第一步:去重(Deduplication)
一般模型训练时,只会在单个 Common Crawl dump 内去重(dump:指的是 Common Crawl 的网页快照批次,每月或每季度采集一次;Deduplication Rate”:指在该批次数据中成功删除的重复网页比例)。
DeepSeek 则更激进:他们横跨 91 个 dump,做了全量比对。想象一下,这就像从 91 个不同年份的互联网档案中清除所有重复内容。
结果是,随着使用的 dump 数量增加,重复数据被清除得更彻底,去重率从 22.2% 提升到 89.8%。
第二步:过滤(Filtering)
去重之后,团队还要筛出真正“能教模型知识”的网页。他们不靠关键词匹配,而是引入一套双层质量评估系统:
- 语言学层面:判断文本是否连贯、语法是否正确;
- 语义层面:分析信息密度、事实一致性和领域相关度。
这一阶段相当于让机器当“语文老师”,人工智能自己给语料打分。结果,保留下来的文本既覆盖广、又内容靠谱。
第三步:重混(Remixing)
最后一步,是让模型不偏科。DeepSeek 在重混阶段对语料重新采样,也就是给代表性不足的领域加权,比如科学论文、法律、医疗等稀缺知识类型。这样训练出来的模型,不会只会聊天和写小说,也能讲经济、懂物理。
最终,DeepSeek 团队形成了一个 “纯度高、分布广、结构平衡” 的超级数据集。这套数据工程直接支撑了他们后续所有模型(V2、V3、Coder、Math)的训练。
二、除了数据,还得改造训练方式:怎么练才能像“行家”?
- 数学:用强化学习教模型“推理,而不是猜答案”
传统的 RLHF(基于人类反馈的强化学习)在数学领域有个问题:人的偏好评分很主观,而数学有明确的对错。DeepSeekMath 的解决方案是:改 PPO 为 GRPO(Group Relative Policy Optimization) 。即用组内平均得分当基线,省掉庞大的 value 网络,同时更稳定。
结果是,7B 的模型在MATH Benchmark(数学推理能力的标准考试)上,准确率分别达到 51.7%(单次回答) 和 60.9%(多次自洽投票),这个成绩几乎和 GPT-4、Gemini-Ultra 这些闭源巨型模型相当。
- 代码:既要会“补全”,也要懂“写作”
在训练目标设计上,DeepSeek-Coder 的经验非常值得借鉴:当 100% 用 FIM 去训练模型时,它会过度专注“补全”任务,丢掉了自然续写的能力,而只做 next-token 预测,又缺乏对 IDE 场景的适应性。所以 DeepSeek 选了一个折中:50% FIM + 50% 常规补全。
结果模型既能像 Copilot 那样在中间补写,也能自主生成整段新代码。
- 规模:大 ≠ 强,关键是“算力怎么分配”
在《DeepSeek-LLM:以长期主义扩展开源语言模型》论文中,作者反复强调一个观点:模型变大不一定更聪明,真正的关键在于:有限的算力该怎么花。
他们发现,很多团队在扩模型时,喜欢“堆更多参数、喂更多数据”,但如果数据本身质量不高,模型学到的就只是更大的噪声。
DeepSeek 团队的做法是:**先提纯数据,再决定模型多大。**他们发现:当语料越干净、信息密度越高时,模型能从每一个 token 中学到的知识也越多,这时适当增加模型容量(而不是盲目加数据量),反而能带来更高的收益。
这就是他们提出的“算力再分配思路”:与其用算力去训练无用数据,不如花在让模型更精、推理更深上。
图:《DeepSeek LLM Scaling Open-Source Language Models with Longtermism》
两张热力图表示:在不同计算预算下(左:小规模实验,右:大规模实验),模型的训练效果(损失值)如何随着「批大小 × 学习率」的不同而变化。
这张图传达了一个非常重要的结论:在高质量数据下,模型训练对超参数更不敏感。
也就是说:
- 在传统(噪声较多)的数据中,模型对 batch size、learning rate 非常挑剔,稍微调不好就不收敛;
- 而在 DeepSeek 清洗过的数据上,整个「好用的参数区间」变宽了很多,损失曲面更平滑:不论是 batch size 大一点、小一点,学习率快一点、慢一点,都能得到相似的好结果。
写在最后:
可以看得出,DeepSeek 并不和其它模型厂商一样,执着于“做更大的模型”,而是“做更聪明的训练”,这种训练哲学深深烙印着创始人梁文峰的个人特质和职业经历。
量化投资背景塑造了梁文峰极致效率的价值观。作为幻方量化创始人,他擅长通过数学和AI重构金融边界,这种数据驱动、效率优先的思维自然迁移到了AI训练中,使他更关注“投入产出比”而非盲目追随行业潮流。
梁文峰有自己的技术理想,他认为“AI技术应服务于大众”,主张“不贴钱,也不赚取暴利”。这种理念促使DeepSeek始终在探索低成本、高效率的训练路径,让更多人能够使用AI技术。
三篇论文地址:
《DeepSeek-Math:突破开放语言模型中数学推理的极限》
英文:《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》
论文地址:https://arxiv.org/abs/2402.03300
发表时间:2024年2月
《DeepSeek-Coder:当大型语言模型遇上编程——代码智能的崛起》
英文:《DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence》
论文地址:https://arxiv.org/abs/2401.14196
发表时间:2024年1月
《DeepSeek-LLM:以长期主义扩展开源语言模型》
英文:《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》
论文地址:https://arxiv.org/abs/2401.02954
发表时间:2024年1月
三、AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
04.大模型面试题目详解
05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)