Meta科学家田渊栋大模型干货:从Llama 4到打开AI黑箱,程序员必学的前沿洞察!
田渊栋分享参与Llama 4项目后被裁经历,及在大模型推理和AI可解释性领域的研究成果。他提出"费米能级"概念,指出AI时代人类价值将分层,只有能显著提升AI能力的人才具有价值。面对"遍地神灯"时代,他强调保持独立思考,建议人们从"员工"向"老板"角色转变,以宏大目标激发主动思考,避免被AI同化。
简介
田渊栋分享参与Llama 4项目后被裁经历,及在大模型推理和AI可解释性领域的研究成果。他提出"费米能级"概念,指出AI时代人类价值将分层,只有能显著提升AI能力的人才具有价值。面对"遍地神灯"时代,他强调保持独立思考,建议人们从"员工"向"老板"角色转变,以宏大目标激发主动思考,避免被AI同化。
去年 10 月,Meta 人工智能部门的裁员波及到了一大波人,其中包括了知名华人科学家田渊栋及其团队成员。

就在这两天,田渊栋分享了自己的 2025 年终总结。


他首先透露了自己「救火」Llama 4 项目的经历以及之后被裁、未来的工作规划;接着回顾了 2025 年的主要研究方向,包括大模型推理和打开模型的黑箱;最后探讨了 AI 驱动下的社会变革、生产力重构以及个人价值的存续逻辑。
接下来为田渊栋知乎原文内容。
2025年终总结(一)
关于被裁
在 2025 年 1 月底被要求加入 Llama4 救火的时候,作为一直以来做强化学习的人,我事先画了一个 2x2 的回报矩阵(reward matrix),计算了一下以下四种可能(虽然在那时,因为来自上面的巨大压力,不同意是几乎不可能的):

当时想的是我们去帮忙的话,即便最后项目未能成功,也至少尽力而为,问心无愧。不过遗憾的是,最后发生的是没在计算之内的第五种可能,这也让我对这社会的复杂性有了更为深刻的认识。
尽管如此,在这几个月的努力过程中,我们还是在强化学习训练的核心问题上有一些探索,比如说训练稳定性,训推互动,模型架构设计,和预训练 / 中期训练的互动,长思维链的算法,数据生成的方式,后训练框架的设计等等。这个经验本身是很重要的,对我的研究思路也带来了不小的转变。
另外其实我也想过在公司十年多了,总有一天要离开,总不见得老死在公司里吧,但总是因为各种经济上和家庭上的原因还是要待下去。最近一两年的说话和做事方式,都是抱着一种 “公司快把我开了吧” 的心态,反而越来越放开。2023 年年末我休第一个长假的时候,其实几乎差点要走了,但最后没签字还是选择待在公司继续,所以说真要做出离开的决定也不容易。现在 Meta 帮我做了也挺好。
这次波折和今年一年的起起落落,也为接下来的小说创作提供了非常多的新素材。所谓 “仕途不幸诗家幸,赋到沧桑句便工”,生活太平淡,人生就不一定有乐趣了。还记得 2021 年年头上的时候,因为在年末工作总结里面写了几句关于” 为啥 paper 都没中 “的反思,喜提 Meet Most,有一种突然不及格的懵逼感。但想了想与其到处抱怨世道不公,不如就在大家面前装成自己刚刚升职吧,结果半年后果然升了职,而那篇 21 年头上无人问津的工作,在 21 年 7 月份中了 ICML Best paper honorable mention,成为一篇表征学习中还比较有名的文章。
10 月 22 号之后的一段时间,基本上我的各种通信方式都处于挤爆的状态,每天无数的消息和邮件,还有各种远程会议或者见面的邀请,实在是忙不过来了。一直到几周之后才渐渐恢复正常。这两个月非常感谢大家的关心和热情。如果那时有什么消息我没有及时回复,请见谅。
虽然最后有不少 offer,大家能想到的知名公司也都联系过我,但最后还是决定乘自己还年轻,去当一家新初创公司的联合创始人,细节暂时不公开,先安静地忙活一阵吧。根据 Linkedin 信息显示,他已经于去年 12 月在这家公司上任。

一些研究的方向
2025 年的主要方向,一个是大模型推理,另一个是打开模型的黑箱。
自从 2024 年末我们的连续隐空间推理(coconut,COLM’25)工作公开之后,25 年在这个研究方向上掀起了一股热潮。大家探索如何在强化学习和预训练中使用这个想法,如何提高它的训练和计算的效率,等等。虽然我们组随后就被拉去 llama 干活,没能再继续花很大力气往下挖,但这个让我觉得非常欣慰。尽管如此,我们还是在上半年发了一篇理论分析(Reasoning by Superposition,NeurIPS‘25)的文章,展示连续隐空间推理有优势的地方究竟在哪里,获得了不少关注。
另外是如何提高大模型的推理效率。我们的 Token Assorted(ICLR’25)的工作,先通过 VQVAE 学出隐空间的离散 token,再将所得的离散 token 和 text token 混在一起进行后训练,减少了推理代价的同时提高了性能。我们的 DeepConf 通过检测每个生成 token 的自信程度,来决定某条推理路径是否要被提前终止,这样推理所用的 token 减少了很多,但在 majority vote 的场景下性能反而更好。ThreadWeaver 则是通过制造并行推理的思维链,并在其上做后训练,来加快推理速度。另外我们也在 dLLM 上用 RL 训练推理模型(Sandwiched Policy Gradient),也有在小模型上学习推理的尝试(MobileLLM-R1)。
在可解释性方面,Grokking(顿悟)这个方向我大概两年前就在关注了。因为之前我做表征学习(representation learning)的分析,虽然能分析出学习的动力学过程,看到模型出现表征塌缩的原因,但究竟学出什么样的表征,它们和输入数据的结构有什么关系,能达到什么样的泛化能力,还是个谜团,而通过分析 Grokking 这个特征涌现的现象,从记忆到泛化的突变过程,正好能解开这个谜团。一开始确实非常难做没有头绪,2024 年先做了一篇 COGS(NeurIPS‘25,见求道之人,不问寒暑(十)),但只能在特例上进行分析,我不是很满意。在一年多的迷茫之后,在和 GPT5 大量互动之后,最近的这篇 Provable Scaling Laws 的文章应该说有比较大的突破,能分析出之前的线性结构(NTK)看不到的东西,并把特征涌现的训练动力学大概讲清楚了。虽然说分析的样例还是比较特殊,但至少打开了一扇新的窗口。详细解释请看田渊栋的想法。
年末的这篇 The path not taken 我很喜欢,对于 RL 和 SFT 的行为为何会如此不一致,在权重的层面给出了一个初步的答案。SFT 造成过拟合和灾难性遗忘(catastrophic forgetting),其表层原因是训练数据不够 on-policy,而深层原因是权重的主分量直接被外来数据大幅修改,导致 “根基” 不稳,模型效果大降。而 RL 则因为用 on-policy 的数据进行训练,权重的主分量不变,改变的只是次要分量,反而能避免灾难性遗忘的问题,而改变的权重其分布也会较为稀疏(特别在 bf16 的量化下)。
关于可解释性的信念
很多人觉得可解释性,或者 “AI 如何工作得那么好” 这个问题不重要,但我却觉得很重要。试想之后的两种场景:
- 场景一:如果我们仅仅通过 Scaling 就达到了 AGI 乃至 ASI,全体人类的劳动价值都降为零,AI 作为一个巨大的黑盒子帮我们解决了所有问题,那如何让 AI 作为一个超级智能,一直行善,不欺骗不以隐秘的方式作恶,就是当务之急,要解决这个问题就要做可解释性。
- 场景二:如果 Scaling 这条路最终失效,人类在指数增长的资源需求面前败下阵来,必须得要寻求其它的方案,那我们就不得不去思考 “模型为什么有效,什么东西会让它失效”,在这样的思考链条之下,我们就必须回归研究,可解释性就是目所能及的另一条路了。
在这两种情况下,最终都需要可解释性来救场。就算最终 AI 是个全知全能全善的神,以人类好奇和探索的天性,必然还是会去研究 AI 为什么能做得好。毕竟 “黑盒” 就意味着猜疑链的诞生,在大模型技术爆炸,开始达到甚至超过人类平均水平的今天,《三体》中 “黑暗森林” 的规则,也许会以另一种方式呈现出来。
目前打开训练好模型的黑箱,去找到电路(circuit),还是处于比较初步的阶段。可解释性真正的难点,在于从第一性原理,即从模型架构、梯度下降及数据本身的固有结构出发,解释为什么模型会收敛出这些解耦、稀疏、低秩、模块化、可组合的特征与回路,为什么会有大量不同的解释,这些涌现出来的结构和模型训练的哪些超参数相关,如何相关,等等。等到我们能从梯度下降的方程里,直接推导出大模型特征涌现的必然性,可解释性才算真正从生物式的证据收集走向物理式的原理推导,最终反过来指导实践,为下一代人工智能的模型设计开辟道路。对比四百年前的物理学,我们现在有很多 AI 版的第谷(收集数据),一些 AI 版的开普勒(提出假说),但还没有 AI 版的牛顿(发现原理)。
等到那一天来临的时候,我相信,世界一定会天翻地覆。
2025年终总结(二)
未来会是什么样子
抛开前公司里每三个月一次的组织架构重组不谈,2025 年一年的变化本身已经很大。25 年年初的 Deepseek-R1 的发布,现在想来几乎已经算是上个世纪的事情了。带思维链的推理模型的巨大成功,让强化学习(RL)又回到了 AI 的主流视野之中,也带动了 AI4Coding 及 AI Agent 的发展,而后两者让大模型有了大规模落地,大幅度提高生产力的切实可能。
以前做项目,招人是很重要的一环,但现在脑中的第一个问题是 “还需不需要人?” 几个 Codex 进程一开,给它们下各种指令,它们就可以 24 小时不间断干活,速度远超任何人类,而且随便 PUA 永远听话毫无怨言。和 AI 工作,我最担心的是工作量有没有给够,有没有用完每天的剩余 token 数目。这也是为什么各家都在试验让 AI Agent 做几个小时连续不断的工作,看 AI 的能力上界在哪里。因为人的注意力永远是最昂贵的,人要休息,要度假,要允许有走神、睡觉和做其它事情的时间。减少人的介入,让 AI 自己找到答案,干几个小时活之后再回来看看最好。
这每个月交给 OpenAI 的 20 块钱,一定要榨干它的价值啊。
我突然意识到,就因为这区区 20 块钱,我已经成为了 “每个毛孔里都滴着血” 的肮脏资本家。我能这么想,全世界最聪明和最富有的头脑,也一定会这么想。
所以请大家丢掉幻想,准备战斗吧。
在帮忙赶工 Llama4 期间,我经常在加州时区晚上 12 点接到东部时区的组员消息,在伦敦的朋友们更是永不下线,熬夜折腾到凌晨四五点是寻常事,但大模型越来越强,辛勤劳动最终达到的结果,是看到大模型达到甚至超越我们日常作事的水准。
这应该说是一种陷入囚徒困境之后的无奈。
人类社会的 “费米能级”
如果以后以 AI 为中心,那还需要人么?
如果考虑劳动力的投入 - 回报模型,传统思维会告诉你,工作经验积累越多,人的能力越强,回报也越大,是个单调上升的曲线。这就是为什么大厂有职级,职级随年限晋升,越老越香。但现在的情况已经不同了。职级已经没有意义,过去的经验也没有意义,人的价值从按照 “本人产出的劳动数量及质量” 来评估,变成了是否能提高 AI 的能力,人加 AI 要大于 AI 本身的产出,这样才行。
这样就让投入 - 回报曲线从一个单调递增曲线变成了一个先是全零,再在一定阈值之后增长的曲线(也即是 soft-thresholding 的曲线)。一开始人的能力是比不过 AI 的,而 AI 的供给只会越来越便宜,所以在很长一段成长期内,人本身是没有价值的。只有在人的能力强到一定程度之后,能够做到辅助 AI 变强,才开始变得有价值起来。
并且,在跨越阈值之后,厉害人对 AI 的加成,会高于普通人很多很多,因为普通人只会对 AI 的一两条具体产出花时间修修补补,而厉害的人在看了一些 AI 存在的问题之后,能提出较为系统性和普遍性的解决方案,结合手上的各类资源(GPU 和数据等),可以进一步让 AI 变得更强,而这种效应随着 AI 的广泛部署,会被几何级数地放大。“一骑当千” 这种小说笔法,将很快变成现实。
在这样一个非常两级分化的投入 - 回报模型之下,如果把人 + 所有个人能获取的 AI 当成一个智能体,整体来看,它的能力分布会和电子能级在材料里的分布很像:低于或达到某个水准线的智能体遍地都是,求着客户给它活干,以证明自己还是有用的;而高于这个水准线的智能体则指数级地变少,获取和使用它非常花钱,还常常排不到。
这个水准线,就是 AI 洪水的高度,就是人类社会的 “费米能级”。低于费米能级的职业,可能在一夜之间就被颠覆掉,就像一场洪水或者地震一样,前一天还是岁月静好,后一天整个行业被端掉了。
随着时间变化,这条水准线还会一直往上走。其进展的速度,和它能获取到的,比它更强的数据量成正比。如果大模型的训练过程没有特别大的进展,那和自动驾驶无人车一样,越往上走,有用的数据是越来越少的,进展也会越慢,最顶尖的那部分人,还能在很长时间内保有自己的护城河。如果训练过程有突破,比如说找到新的合成数据手段,乃至新的训练算法,那就不好说了。
当然以上的判断是假设有无限的 GPU 和能源的供给,并没有考虑到各种资源短缺的情况。能源短缺,芯片产能短缺,内存短缺,整个地球能否满足人类日益疯狂增长的 AI 需求还是个未知数,这方面深究下去,或许可以做一篇论文出来。
遍地神灯时代的独立和主动思考
那么,接下来会怎么样呢?
未来的世界,或许不再是传统故事里描绘的那样 —— 人们为了争夺稀缺的武功秘籍,或是千辛万苦寻找唯一的阿拉丁神灯、集齐七颗龙珠而展开冒险。相反,这将是一个 “遍地神灯” 的时代。每一个 AI 智能体都像是一个神灯,它们能力超群,渴望着实现别人的愿望,以此来证明自己的价值。
在这种环境下,真正稀缺的不再是实现愿望的能力,而是 “愿望” 本身,以及将愿望化为现实的那份坚持。
然而,在这个 AI 能力极其充沛的时代,巨大的便利往往伴随着巨大的陷阱。大模型提供了极其廉价的思考结果,在当前信息交互尚不充分的市场中,这些结果甚至可以直接用来交差并获取经济价值(例如那些一眼就能看出的 “AI 味” 文案)。这种唾手可得的便利,会让许多人逐渐失去思考的动力,久而久之丧失原创能力,思想被生成式内容和推荐系统所绑架和同化。这就是新时代对 “懒人” 的定义:不再是因为体力上的懒惰,而是精神上没有空闲去思考,没有能力去构思独特的东西。
最终,变成一具空壳,连许愿的能力都失去了。
那我们该如何保持独立思考?如何不被 AI 同化?战术上来说,我们需要学会不停地审视 AI 的答案,挑它的毛病,并找到它无法解决的新问题。未来的新价值将来源于三个方面:(1)新的数据发现;(2)对问题全新的深入理解;(3)新的路径,包括可行的创新方案及其结果。利用信息不对称来套利只是暂时的。随着模型越来越强,社会对 AI 的认知越来越清晰,这种机会将迅速消失。如果仅仅满足于完成上级交代的任务,陷入 “应付完就行” 的状态,那么在 AI 泛滥的今天,这种职位极易被取代。
就拿 AI Coding 来说,用多了,我会觉得它虽然可以很快弄出一个可以跑的代码库满足需求,但随着代码越来越长,屎山也越来越高,它贡献的代码也就越来越不如人意,还是需要人来做大的设计规划。如何调教它让它更快达成自己的长远目的,这个会成为人类独有价值的一部分。如果只是盲目地命令它做这个做那个,而不自己去思考如何做才能和它配合做得更好,那就会和大部分人一样停留在应用层面,而无法理解得更深入,就更不用说独一无二了。
战略上来说,无论主动还是被动,每个人都将面临从 “员工” 角色向 “老板” 或 “创始人” 角色的转变。这种转变的核心在于 “目标感”。如果心中有一个坚定的目标,并愿意动用一切手段(包括将大模型作为核心工具)去达成它,那么主动思考就是自然而然的结果。目标越远大,触发的主动思考就越多,激发的潜力就越大。
因此,如果将来的孩子立志要去土卫六开演唱会,或者想在黑洞边缘探险,千万不要打压这样看似荒诞的志向。因为这份宏大的愿望,或许正是他们一辈子充满前进动力,主动思考的根本源泉,也是让他们始终屹立于 “费米能级” 之上的关键。
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)