51c大模型~合集122
从 15B token 开始,DIFF Transformer 展现出了显著优于 Transformer 的数学能力,至 20B token 结束的时候,准确率的差距达到了 11% 左右。如图 11 所示,在 8 个数据集上,DIFF Transformer 相较 Transformer 均有不同程度的提升,平均准确率提升了 7.5%,这表明差分注意力机制更强大的上下文建模能力在推理任务中也至关重
我自己的原文哦~ https://blog.51cto.com/whaosoft/13877107
#PHYBench
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京大学计算中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。
PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。
在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 “超越人类专家”。
但是,随着模型能力和评测基准的军备竞赛白热化,越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。这些题目虽然能 “区分” 模型,但是逐渐脱离实际场景,可能难以真正反映模型的实际表现。
近日,北京大学物理学院联合人工智能研究院等多个院系,推出了全新评测基准 PHYBench。PHYBench 包含 500 道经过精心设计的高质量物理题(如图 1),难度横跨高中物理、大学物理以及物理奥林匹克竞赛。这些题目以真实的物理场景为基础,对人类来说并不抽象,却把一众大模型考得七零八落。大模型在解决物理题时的思维链也暴露了它们在感知(Perception)和推理(Reasoning)能力上的缺陷。
- 论文链接:https://arxiv.org/abs/2504.16074
- 项目网址:https://phybench-official.github.io/phybench-demo/
- 数据集:https://huggingface.co/datasets/Eureka-Lab/PHYBench
也许,物理才是最适合考察 AI 推理能力的学科?PHYBench 的尝试为评估大模型真正有效的推理能力提供了全新的工具和视角。

图 1:题目样例与两种评估方法:表达式树编辑距离、正确率。

表 1:与现有 benchmark 对比,PHYBench 在高难度数据集中,有着相对大的规模,同时引入了创新的分数度量:表达式树编辑距离。
评测方法创新
表达式树编辑距离(EED Score)
传统基准通常依赖 Accuracy 这一单一指标:设置唯一正确答案,模型只有在完全匹配时才能得分。为了方便评分,问答题通常被改写成选择题或要求代入数值。这样会导致答案的信息量被严重压缩,而且给出过多条件可能导致模型 “根据选项猜过程”,或者缺乏使用解析表达式表达普适关系的能力。同时在高难度的样本上,0/1 打分会使得所有模型在分数层面都被归零,强弱差异无从体现。
EED Score(Expression‑tree Edit Distance)带来了更贴近人类阅卷的方案。它将数学表达式解析成表达式树,再计算模型答案与参考答案之间的编辑距离:树的结构越接近,得分越高。这一机制输出的是连续、细粒度的分数,能在更多题目上显示区分度,显著提高了统计效力。
实验表明,采用 EED Score 的 500 题,其区分能力相当于 1500 道使用 0/1 Accuracy 的题目。上图(图 1)展示了同一道题三种不同答案在 Accuracy 与 EED Score 下的对比:前者只能给出 “全错 / 全对” 的粗糙评价,而后者则定量刻画了模型解答与正确答案之间的 “距离”。
实验结果
前沿模型与人类专家的差距
PHYBench 团队招募了 81 名北大学子,在 3 小时时限内做 8 道题目,与最先进的 AI 模型展开了一场 "人机大战"。
结果显示,即使是最强的 Gemini 2.5 pro,也只能答对 36.9% 的题目,EED 评分 49.5%。而 “人类专家” 们则轻松碾压,平均正确率高达 61.9%,EED 评分高达 70.5%。 排名前 25% 的受试者更是达到了 71.4% 的正确率 —— 几乎是最强 AI 的两倍。其他模型与人类的差距则更为显著。这一显著差距揭示了现阶段 LLM 在在物理推理场景中的瓶颈。

PHYBench 对模型的能力也进行了细粒度的对比。可以看到,Gemini 2.5 pro、o3 等强推理模型虽然和人类还有较大差距,但是相比前代推理模型已经有了明显的进步。DeepSeek-V3 等基座模型虽未能超越主流推理模型,但也展现出了亮眼的成绩。QwQ-32B 和 DeepSeek32B 蒸馏模型等小型推理模型在 PHYBench 上的表现很令人失望,这可能归因于其物理感知能力的不足。
基于思维链的错因分析:PP × RR
PHYBench 团队对模型的错误进行了系统性总结分析,将模型的推理过程和推理能力划分为了两个关键模块:物理感知(Physical Perception,PP)和鲁棒推理(Robust Reasoning,RR):

- 物理感知(PP):在此阶段,模型进行密集的文字推理,模型需要识别问题相关的物理对象、变量和动力学关系,定性判断哪些物理效应是重要的,哪些可以忽略不计。若 PP 出错,后续整个推理都会偏离轨道。(示例 1 展示典型 PP 失误)
- 鲁棒推理(RR):在此阶段,模型写下大量的 “草稿”,一步步化简表达式,解方程。现阶段的推理模型在此阶段的推理效率尚不高,“草稿” 长度远长于人类,而且经常犯 “低级错误”。(示例 2 展示典型 RR 失误)
PP 和 RR 交替进行,组成了典型的物理解题思维链。

未来展望
推动 AI 的物理理解与推理能力发展
PHYBench 的愿景远不止于 “评测”,更在于 “引领” AI 探索物理世界的无限可能。
PHYBench 的发布,不仅为评估大语言模型在物理感知与推理方面的能力提供了一个全新且权威的基准,更为未来 AI 系统的发展指明了攻坚方向。我们精心设计的真实、复杂的物理场景,旨在深度激发并验证 AI 理解世界并进行可靠推理的能力,推动 AI 系统真正实现对世界的认知、融入与变革。
面向未来,PHYBench 团队将持续致力于数据集的拓展与创新,计划纳入更多前沿物理课题、跨学科交叉内容,甚至挑战人类尚未解开的科学谜题。我们相信,通过提供更具深度和广度的物理挑战,PHYBench 将有力催化 AI 向着突破认知边界、探索未知领域的 “智能伙伴” 或 “超级助手” 发展。
....
#谷歌TPU逆袭英伟达
创始人一夜之间跃升全球第二、第三富豪
谷歌股价涨疯了。
11 月 25 日美股开盘前,谷歌母公司 Alphabet(NASDAQ:GOOGL)股价飙升 2.4% 至 326 美元,刷新历史新高。事实上,这一涨势已延续数日,仅在前一交易日,该股就大涨 6.2%,过去五个交易日累计涨幅超 11.5%,近一个月涨幅更是高达 22%。
截至 24 日收盘,Alphabet 市值约为 3.84 万亿美元,位列全球第三,仅次于英伟达和苹果。按照 25 日盘前涨幅计算,该公司只需较前一日收盘价再上涨不到 5%,即可突破 4 万亿美元大关,成为继英伟达、微软和苹果之后第四家达成这一里程碑的公司。
从年度表现看,谷歌无疑是 2025 年迄今表现最为耀眼的「Magnificent 7」(科技七巨头)成员。截至 24 日收盘价 318.47 美元计算,其年初至今涨幅已高达 87.79%,遥遥领先于英伟达的 35.94%、微软的 12.46%、苹果的 10.18%,以及 Meta、特斯拉和亚马逊均不足 5% 的涨幅。

股价的持续飙升直接推动了两位创始人的财富排名大幅跃升,全球富豪榜大洗牌。拉里・佩奇以 2684 亿美元成为全球第二富豪,谢尔盖・布林以 2488 亿美元位列第三。这一变化意味着他们成功超越了亚马逊创始人贝索斯,仅次于特斯拉 CEO 马斯克。
值得注意的是,在谷歌两位创始人财富飙升的同时,甲骨文创办人拉里・埃里森近期却遭遇财富大幅缩水,从此前的高位排名中跌落。

股价飙升背后,AI 领域双重突破
推动谷歌股价持续上涨的核心动力来自人工智能领域的两大重磅利好。
一是 Gemini 3 惊艳亮相。 上周,谷歌发布了新一代人工智能模型 Gemini 3,它凭借卓越的速度、性能和功能获得业界和消费者广泛赞誉。在多项测试中,Gemini 3 的表现优于 OpenAI 的 ChatGPT-5。谷歌将其快速集成到搜索服务的决策,激发了市场对其 AI 商业化前景的强烈信心,直接推动上周股价走高。

一是 AI 芯片业务迎来重大突破。 周一,The Information 报道称,Meta Platforms 正考虑于 2027 年在其数据中心使用谷歌的 AI 芯片,这笔交易对谷歌来说可能价值数十亿美元。谷歌刚刚发布的第七代 TPU「Ironwood」是目前性能最强大、能效最高的定制芯片。
这笔潜在交易的战略意义重大。Meta 是全球 AI 基础设施组件的最大买家之一,而英伟达是 AI 芯片的领先供应商。如果 Meta 选择谷歌 TPU 而非英伟达产品,表明业界对谷歌芯片性能充满信心,这一潜在交易可能让谷歌抢占英伟达约 10% 的年收入份额,为其带来数十亿美元的新增收入,并确立谷歌在 AI 硬件竞赛中与英伟达正面竞争的地位。
谷歌云 AI 基础设施负责人在全员会议上透露,为满足人工智能服务的爆炸式需求,公司必须每 6 个月将计算能力翻倍,并预计未来 4-5 年内需实现 1000 倍的算力增长。
英伟达紧急发声:我们依然领先一代
谷歌来势凶猛,英伟达坐不住了。
周二,针对华尔街关于谷歌 AI 芯片可能撼动其 AI 基础设施统治地位的担忧,英伟达(Nvidia)回应称,其技术依然「领先全行业整整一代」,并强调其平台兼容所有 AI 模型。

此前有报道称 Meta 可能采购谷歌 TPU,导致英伟达股价跌 3%。对此,英伟达强调,相比谷歌针对特定功能设计的 ASIC(专用集成电路),其 Blackwell 架构芯片在性能、通用性和互换性上更具优势。
分析师指出,英伟达凭借其图形处理器(GPU)占据了 AI 芯片市场 90% 以上的份额。然而,谷歌的自研芯片在最近几周受到了越来越多的关注,被视为昂贵但强大的 Blackwell 芯片的有力替代方案。
与英伟达不同,谷歌并不对外出售其 TPU 芯片,而是将其用于满足内部需求,并允许其他公司通过 Google Cloud(谷歌云)租用算力。
「我们看到市场对我们的定制 TPU 和英伟达 GPU 的需求都在加速增长,」一位谷歌发言人在声明中表示,「我们将一如既往地致力于同时支持这两种硬件。」
英伟达 CEO 黄仁勋在本月早些时候的财报电话会议上也谈到了日益激烈的 TPU 竞争。他指出,谷歌本身也是英伟达 GPU 的客户,而且 Gemini 模型完全可以在英伟达的技术平台上运行。
他还提到,自己与谷歌 DeepMind CEO Demis Hassabis 保持着联系。
黄仁勋透露,Hassabis 曾给他发短信说,科技行业关于「投入更多芯片和数据将创造更强大 AI 模型」的理论,通常被 AI 开发者称为「缩放定律(Scaling Laws)」, 依然有效(intact)。英伟达认为,缩放定律的持续有效将进一步推高市场对其芯片和系统的需求。
谷歌成功翻盘五大原因
2017 年,谷歌用一篇《Attention Is All You Need》为大模型时代奠定了基石。然而,过分担忧安全与品牌声誉,谷歌将先发优势拱手让给了全力投入 GPT 研发的 OpenAI。
2022 年底 OpenAI 推出 ChatGPT 时一炮而红,谷歌紧急推出的 AI 聊天机器人对话过程却磕磕绊绊、问题频出,当时很多关注谷歌的人都批评 CEO 皮查伊,甚至有人要求他辞职下台。
但随着新一代模型 Gemini 3 的问世,局势已彻底改变。近期,包括 Salesforce CEO 贝尼奥夫在内的行业领袖纷纷转向谷歌产品,标志着谷歌已成功重塑市场信心。
在这场事关科技巨头未来的 AI 竞赛中,谷歌究竟是如何从最初被 OpenAI 压制,到如今实现强势逆袭的?有媒体深度分析了背后的五大关键原因。
Gemini 3 大受欢迎
Gemini 3 自上周公测以来口碑爆棚。它不仅在编程、设计和分析能力上全面超越前代,更在多项基准测试中力压竞品。根据 Business Insider 实测发现,Gemini 3 在网站设计和基础游戏开发方面也游刃有余,这使其应用场景不再局限于单纯的代码编写。
新模型的发布有力地回击了关于「谷歌已大幅掉队」的质疑,同时也缓解了人们对「缩放定律(Scaling Laws,即 AI 模型随数据和算力增加而变强)失效」的担忧。自 11 月 18 日发布 Gemini 3 以来,谷歌股价已累计上涨超 12%。
关键时刻
谷歌深耕自研芯片已逾十年。这些 TPU 芯片被用于训练 Gemini 模型,这无疑是最好的「活广告」,因为谷歌正期望更多企业采用其芯片来构建模型。
目前,谷歌通过云服务对外提供 TPU 算力,并在近几个月大力推广以吸引客户,这可能会对英伟达构成长期威胁。据知情人士透露,谷歌正与 Meta 洽谈一笔价值数十亿美元的重磅交易,未来可能将部分谷歌芯片部署在 Meta 的数据中心内。The Information 最先报道了这一消息,受此影响,AMD 和英伟达等芯片巨头的股价周二应声下跌。
反垄断案中的「胜利」
今年 9 月,联邦法官就 2020 年针对谷歌搜索业务的反垄断诉讼做出了处罚裁决。原本外界担忧谷歌利润丰厚的搜索帝国可能面临拆解,但最终的处罚却显得「雷声大雨点小」。裁决允许谷歌继续向苹果等合作伙伴支付费用以保持默认搜索地位,但禁止签订排他性协议,并要求其与竞争对手共享部分搜索数据。
谷歌的 Chrome 浏览器一度面临被强制出售的风险,这将切断其搜索广告飞轮的关键一环。尽管法官认定谷歌存在垄断行为,但该公司最终还是相对「毫发无伤」地度过了这场危机。
沃伦・巴菲特投资入股
监管文件显示,沃伦・巴菲特旗下的伯克希尔・哈撒韦公司上季度建仓了谷歌母公司 Alphabet,持仓价值约 43 亿美元。此举之所以引人注目,原因有二:除苹果外,巴菲特向来对科技股敬而远之;且历史上他一直避免投资昂贵的高增长型公司。
随着巴菲特准备卸任 CEO,这一迟来的下注(他曾表示后悔没早点买入谷歌)表明了他对这家搜索巨头的强烈信心。
搜索业务暂且抗住了 AI 冲击
搜索广告依然是谷歌的核心盈利来源。此前投资者普遍担忧,谷歌在 AI 领域的「自我革命」可能会损害这棵「摇钱树」。但事实证明,这种担忧似乎是多余的:第三季度搜索收入跃升 15%。这表明,即便 AI 分流了部分网站的流量,却并未动摇谷歌的根基。
事实上,谷歌表示生成式 AI 正促使用户进行更多的搜索。目前,公司正在测试「AI 模式」下的广告投放,这种类似聊天机器人的搜索形态正逐渐褪去实验色彩,越来越接近谷歌对未来搜索终极形态的构想。
参考链接:
https://www.businessinsider.com/google-company-turnaround-moment-reasons-ai-race-gemini-2025-11
https://x.com/nvidianewsroom/status/1993364210948936055?s=20
....
#Scaling时代终结了
「Scaling 时代已经终结。」 Ilya Sutskever刚刚宣布
当这句话出自 Ilya Sutskever 之口时,整个 AI 社区都无法忽视。作为 Safe Superintelligence Inc. 的创始人,他在最新访谈中抛出的这一断言,不仅令业内震惊,更收获了诸多重量级人物的共鸣。

这场由 Dwarkesh Patel 主持、长达 95 分钟的深度对话,上线短短数小时便在 X 平台上突破了百万浏览量。从大模型的技术现状到研究品味,再到对超级智能的终极构想,Ilya 毫无保留。

以下是本次访谈的精华总结,带你读懂这位顶尖科学家的判断与展望。
,时长01:36:03
视频地址:https://www.dwarkesh.com/p/ilya-sutskever-2
1. 模型能力的「参差不齐」(Model Jaggedness) 与泛化
- 现象: Ilya 指出当前模型存在一种奇怪的矛盾 —— 它们能在高难度的评测(Evals)中表现出色,却可能在简单的任务上反复犯错(如修 Bug 时引入新 Bug)。
- 解释: 他认为这可能源于「奖励黑客行为」(Reward Hacking)。人类研究员为了让评测分数好看,过度针对评测集进行强化学习(RL)训练,导致模型像是一个「只会做题」的学生,缺乏真正的理解和泛化能力。
- 对比: 他用「刷题家」与「有天赋的学生」做类比。目前的模型像刷了 10,000 小时题目的学生,虽然能解题但缺乏真正的智能;而人类(有天赋的学生)即使练习很少,也能展现出更好的泛化能力。
2. 情绪、价值函数与人类学习
- 情绪的本质: Ilya 提出一个深刻的见解,认为人类的情绪类似于机器学习中的价值函数 (Value Function)。情绪并非无用的累赘,而是进化的产物,帮助我们在漫长的时间跨度中,在获得最终结果之前就判断当前决策的好坏(例如下棋丢子时的「懊恼」)。
- 学习效率: 人类的学习效率远高于 AI(样本效率高)。这不仅仅是因为进化留下的先验知识(如视觉、运动),更因为人类拥有某种基于价值函数的内在学习机制,能够进行持续学习 (Continual Learning) 和自我纠正。
3. AI 发展的阶段转变:从「扩展」到「研究」
- 扩展时代 (Age of Scaling, 2020-2025): 过去几年,「扩展 (Scaling)」是主旋律,只要堆算力和数据(主要是预训练)就能获得提升。
- 研究时代 (Age of Research): 现在,预训练数据即将耗尽,且单纯扩大规模的回报在边际递减。我们重新回到了「研究时代」。这意味着不能只靠盲目扩大规模,而是要寻找新的「配方」(Recipe),更聪明地使用算力(例如在强化学习和推理过程中)。
4. Safe Superintelligence Inc. (SSI) 的战略
- 直通超级智能 (Straight-shotting): 与 OpenAI 等公司逐步发布产品不同,SSI 倾向于专注于研发,直到解决安全超级智能的问题后再发布。尽管 Ilya 也承认逐步发布有助于让世界适应,但他认为避免商业竞争的「老鼠赛跑」对安全至关重要。
- 技术路径: SSI 试图解决根本性的技术问题(如可靠的泛化),而不是仅仅在现有范式上修修补补。
- 商业模式: 目前专注于研究,不急于通过产品获利。
5. 对齐与未来展望
- 关爱感知生命: Ilya 提出的核心对齐目标是「关爱感知生命 (Care for sentient life)」。他认为这是一个比单纯「听从人类指令」更稳健的目标,因为 AI 本身也将是感知生命的一部分。
- 多智能体与生态: 未来可能会有多个大陆级规模的 AI 集群。只要前几个最强大的 AI 是对齐的(关爱生命的),世界可能会进入一个良性发展的轨道。
- 长期均衡: 他设想了一种长期均衡状态,人类通过脑机接口(如 Neuralink++)与 AI 融合,成为「半 AI」,从而避免被完全边缘化。
6. 研究品味
- 审美与直觉: Ilya 分享了他的研究哲学。他依靠一种「自上而下」的信念,这种信念源于对美、简单性的追求以及对生物学(大脑)的正确借鉴。
- 坚持: 当实验数据与直觉相悖时,这种基于美的信念能支撑研究者继续寻找 Bug 或坚持方向,而不是轻易放弃。
以下为采访完整内容的转录和翻译。
解释模型能力的参差不齐
Ilya Sutskever: 你知道什么最疯狂吗?这一切都是真实的。
Dwarkesh Patel: 指的是什么?
Ilya Sutskever: 你不觉得吗?所有这些 AI 的东西,整个湾区的氛围…… 它正在发生。这难道不像是科幻小说里的情节吗?
Dwarkesh Patel: 另一件疯狂的事是,这种「缓慢起飞 (slow takeoff)」的感觉是多么的平淡无奇。按理说,如果我们正在将 GDP 的 1% 投入到 AI 中,感觉应该会更轰动一些,但现在感觉就像……
Ilya Sutskever: 事实证明,我们适应得很快。而且这也比较抽象。这意味着什么呢?意味着你在新闻里看到某某公司宣布了某某金额的投资。你看到的仅此而已。到目前为止,还没有在其他方面真正感受到它。
Dwarkesh Patel: 我们要从这里开始吗?我觉得这是个有趣的讨论点。
Ilya Sutskever: 当然。
Dwarkesh Patel: 我认为你的观点是,从普通人的角度来看,没什么太大的不同。这种感觉甚至在进入奇点 (singularity) 之后还会持续。
Ilya Sutskever: 不,我不这么认为。
Dwarkesh Patel: 好的,这很有趣。
Ilya Sutskever: 我刚才指的「感觉没什么不同」,是因为某某公司宣布了一个难以理解的巨额投资数字,我觉得没人知道该拿这些钱干什么。
但我认为 AI 的影响将会被切实感受到。AI 将渗透到整个经济中。会有非常强大的经济力量推动这一点,我认为这种影响将会非常强烈。
Dwarkesh Patel: 你预期这种影响什么时候会到来?目前的模型似乎比它们产生的经济影响要聪明得多。
Ilya Sutskever: 是的。这是目前模型非常令人困惑的地方之一。如何调和这样一个事实:它们在评测 (evals) 上表现得如此出色?你看那些评测会想,「这些题目挺难的。」它们做得很好。但经济影响似乎大大滞后。很难理解,为什么模型一方面能做这些惊人的事情,另一方面却会在某些情况下重复犯错?
举个例子,假设你用「Vibe Coding」(凭感觉编程 / 氛围编码)做点什么。你写到某个地方,然后出了个 Bug。你告诉模型:「能不能修一下这个 Bug?」模型说:「天哪,你说得太对了。我有个 Bug。让我去修好它。」然后它引入了第二个 Bug。你告诉它:「你有这个新的 Bug。」它说:「天哪,我怎么会这样?你又说对了。」然后它把第一个 Bug 又带回来了,你就在这两个 Bug 之间来回折腾。这怎么可能呢?我不确定,但这确实表明有些奇怪的事情正在发生。
我有两个可能的解释。比较异想天开的解释是,也许强化学习 (RL) 训练让模型变得有点过于一根筋和视野狭窄,有点过于缺乏意识,尽管这同时也让它们在其他方面更有意识。正因为如此,它们无法完成一些基本的事情。
但还有另一种解释。过去人们做预训练 (pre-training) 时,「用什么数据训练」这个问题的答案很简单,就是所有数据。做预训练时,你需要所有的数据。所以你不必纠结是用这个数据还是那个数据。
但当人们做 RL 训练时,他们必须思考。他们会说:「好吧,我们想为这个任务做这类 RL 训练,为那个任务做那类 RL 训练。」据我所知,所有公司都有专门的团队负责生成新的 RL 环境并将其添加到训练混合中。问题是,这些环境是什么?自由度太高了。你可以生成的 RL 环境种类繁多。
有一件事是可以做的,我认为这也是人们无意中在做的事情,就是从评测集 (evals) 中获取灵感。你会说:「嘿,我希望我们的模型发布时表现出色。我希望评测结果看起来很棒。什么样的 RL 训练能在这些任务上有所帮助?」我认为这是正在发生的事情,它可以解释很多现象。
如果你把这点与模型实际上泛化能力不足结合起来看,这就有可能解释我们所看到的很多现象 —— 即评测性能与实际现实世界性能之间的脱节。这是我们今天甚至还没完全理解其含义的事情。
Dwarkesh Patel: 我喜欢这个观点:真正的奖励黑客 (reward hacking) 行为其实是人类研究员,他们太关注评测结果了。
关于你刚才指出的这一点,我认为有两种理解方式。一种是,如果仅仅通过在编程竞赛中达到超人类水平,模型并不会自动变得更有品位、在改进代码库时拥有更好的判断力,那么你应该扩展环境套件,不仅仅测试它在编程竞赛中的表现,还要让它能够为 X、Y 或 Z 做出最好的应用。
另一种,也许正是你暗示的,是问:「为什么在编程竞赛中达到超人类水平,却不能让你在更广泛的意义上成为一个更有品位的程序员?」也许我们要做的不是不断堆砌环境的数量和多样性,而是找出一种方法,让你能从一个环境中学习,进而提高在其他事情上的表现。
Ilya Sutskever: 我有一个人类的类比可能很有帮助。既然你提到了编程竞赛,我们就以此为例。假设有两个学生。其中一个决定要成为最好的竞赛程序员,所以他在该领域练习了 10,000 小时。他解决了所有问题,背诵了所有证明技巧,并且非常熟练地快速、正确地实现所有算法。通过这样做,他成为了顶尖选手之一。
二号学生觉得:「哦,编程竞赛挺酷的。」也许他只练了 100 小时,少得多,但也做得很好。你认为哪一个在以后的职业生涯中会做得更好?
Dwarkesh Patel: 第二个。
Ilya Sutskever: 对。我认为这就是目前正在发生的情况。现在的模型更像第一个学生,甚至有过之而无不及。因为我们会说,模型应该擅长编程竞赛,所以让我们把有史以来所有的编程竞赛题都拿来。然后我们再做一些数据增强,这样我们就有了更多的题目,并在上面进行训练。现在你有了一个很棒的竞赛程序员。
用这个类比就更直观了。是的,好吧,既然训练得这么好,所有不同的算法和证明技巧都信手拈来。但更直观的是,这种程度的准备并不一定能泛化到其他事情上。
Dwarkesh Patel: 那么,第二个学生在做那 100 小时的微调 (fine-tuning) 之前,他在做什么?对应的类比是什么?
Ilya Sutskever: 我觉得是因为他们有「那个东西」(it)。一种天赋因素。我读本科的时候,记得有个同学就是这样,所以我知道这种人是存在的。
Dwarkesh Patel: 我觉得区分「天赋」和预训练的作用很有趣。理解你刚才关于「预训练不用选择数据」的一种方式是,这其实和 10,000 小时的练习没什么不同。只是你在预训练分布中已经免费获得了这 10,000 小时的练习。但也许你的意思是,其实从预训练中获得的泛化并没有那么多。预训练中虽然有海量数据,但它并不一定比 RL 泛化得更好。
Ilya Sutskever: 预训练的主要优势在于:A,数据量巨大;B,你不需要费尽心思去想把什么数据放入预训练中。这是非常自然的数据,其中确实包含了很多人类的行为:人们的思想和大量的特征 (features)。它就像是整个世界被人类投射到了文本上,而预训练试图利用海量数据来捕捉这一点。
预训练很难进行推理分析,因为很难理解模型以何种方式依赖预训练数据。每当模型犯错时,是不是因为某些东西恰好没有得到预训练数据的充分支持?「预训练的支持」也许是个宽泛的术语。我不知道我还能对此补充什么更有用的信息。我不认为人类有类似预训练的过程。
情绪与价值函数
Dwarkesh Patel: 关于人类类似预训练的过程,人们提出过一些类比。我很想听听你为什么认为它们可能是错的。一种是认为这就像人生的前 18、15 或 13 年,那时他们不一定在创造经济价值,但他们在做一些事情以更好地理解世界。另一种是将进化视为一种持续 30 亿年的搜索,最终产生了一个人类生命的实例。
你认为这些类比中哪一个接近预训练吗?如果你不认为那是预训练,你会如何看待人类的终身学习?
Ilya Sutskever: 我认为这两者与预训练都有相似之处,预训练试图扮演这两者的角色。但我认为也有很大的不同。预训练的数据量是非常非常惊人的。
Dwarkesh Patel: 是的。
Ilya Sutskever: 不知何故,一个人即使过了 15 年,接触到的数据量只是预训练的一小部分,他们知道的信息量少得多。但无论他们知道什么,他们似乎理解得更深刻。在那个年纪,你已经不会犯我们的 AI 所犯的那些错误了。
还有另一件事。你可能会说,这会不会像进化?答案是也许。但在这种情况下,我认为进化实际上可能更有优势。我记得读过这样一个案例。神经科学家了解大脑的一种方法是研究大脑不同部位受损的人。有些人会出现你能想象到的最奇怪的症状。这真的非常有意思。
我想到一个相关的案例。我读到过一个人,他因某种脑损伤、中风或事故,丧失了情绪处理能力。所以他不再感受到任何情绪。他仍然非常善于表达,可以解决小谜题,在测试中看起来一切正常。但他感觉不到情绪。他不觉得悲伤,不觉得愤怒,也不觉得兴奋。不知何故,他在做任何决定时都变得极度糟糕。决定穿哪双袜子都要花好几个小时。他会做出非常糟糕的财务决策。
这说明了什么?关于我们内置的情绪在使我们成为一个可行主体 (viable agent) 方面的作用?回到你关于预训练的问题,也许如果你足够擅长从预训练中挖掘一切,你也能得到那个东西。但这看起来像是…… 好吧,从预训练中获得那个东西可能是可能的,也可能不可能。
Dwarkesh Patel: 「那个东西」是什么?显然不仅仅是直接的情绪。它看起来几乎像某种价值函数 (value function) 似的东西,它告诉你任何决定的最终回报应该是什么。你认为这不会从预训练中隐式地产生吗?
Ilya Sutskever: 我认为它是可以产生的。我只是说这并不是 100% 显而易见的。
Dwarkesh Patel: 但那是什么呢?你怎么看待情绪?情绪在机器学习 (ML) 中的类比是什么?
Ilya Sutskever: 它应该是某种价值函数的东西。但我认为目前没有一个很好的 ML 类比,因为现在价值函数在人们做的事情中并没有扮演非常突出的角色。
Dwarkesh Patel: 也许值得为听众定义一下什么是价值函数,如果你愿意的话。
Ilya Sutskever: 当然,我很乐意。当人们做强化学习 (RL) 时,目前 RL 是怎么做的?人们如何训练这些智能体 (agents)?你有一个神经网络,你给它一个问题,然后告诉模型:「去解决它。」模型会进行也许数千、数十万次的动作或思考,然后生成一个解决方案。这个解决方案会被打分。
然后这个分数被用来为你的轨迹中的每一个动作提供训练信号。这意味着如果你在做一件持续时间很长的事情 —— 如果你在训练一个需要很长时间才能解决的任务 —— 在你想出提议的解决方案之前,它根本不会进行任何学习。这是最原始的强化学习做法。这也是 o1、R1 表面上的做法。
价值函数会说类似这样的话:「也许我可以有时 —— 不总是 —— 告诉你你做得好还是坏。」价值函数的概念在某些领域比其他领域更有用。例如,当你下国际象棋丢了一个子,我搞砸了。你不需要下完整盘棋就知道我刚才做的那步很糟糕,因此在此之前的一系列操作也很糟糕。
价值函数让你不必等到最后。假设你在做某种数学或编程的事情,你试图探索特定的解决方案或方向。在思考了,比如说一千步之后,你得出结论这个方向没希望。一旦你得出这个结论,你其实早在以前的一千个时间步之前,当你决定沿着这条路走的时候,就可以得到一个奖励信号了。你会说:「下次在类似情况下我不应该走这条路」,这比起你真正拿出解决方案要早得多。
Dwarkesh Patel: 这在 DeepSeek R1 的论文里提到过 —— 轨迹空间太宽广了,也许很难学习从中间轨迹到价值的映射。而且考虑到,比如在写代码时,你可能会有一个错误的想法,然后你会回去修改。
Ilya Sutskever: 这听起来对深度学习太没信心了。当然这可能很难,但没什么深度学习做不到的。我的预期是价值函数应该是有用的,我完全预期它们将在未来被使用,如果现在还没被使用的话。
我之前提到的那个情感中枢受损的人,我想表达的是,也许这表明人类的价值函数在某种重要的方面受到情绪的调节,这种调节是由进化硬编码的。也许这对于人类在这个世界上有效行动很重要。
Dwarkesh Patel: 这正是我打算问你的。关于价值函数的情绪有一些非常有趣的地方,那就是虽然它们相当容易理解,却拥有如此巨大的效用,这令人印象深刻。
Ilya Sutskever: 我有两个回应。我确实同意,相比于我们学到的东西和我们在谈论的 AI 类型,情绪相对简单。它们甚至可能简单到你可以用人类能理解的方式将它们映射出来。我觉得这样做会很酷。
不过就效用而言,我认为存在一种复杂性与鲁棒性(robustness)的权衡,复杂的东西可能非常有用,但简单的东西在非常广泛的情况下非常有用。解释我们所见现象的一种方式是,我们的情绪主要从哺乳动物祖先那里进化而来,然后在我们成为人科动物时微调了一点点,只是一点点。我们确实有相当数量的社会性情绪,这是哺乳动物可能缺乏的。但它们并不是非常复杂。正因为它们不复杂,所以在这个与我们过去生活的世界截然不同的现代世界中,它们依然能很好地为我们服务。
实际上,它们也会犯错。例如,我们的情绪…… 其实我不知道,饥饿算是一种情绪吗?这有争议。但我认为,例如我们直觉上的饥饿感,在当今这个食物充足的世界里并没有成功地正确引导我们。
我们在扩展什么?
Dwarkesh Patel: 人们一直在谈论扩展数据、扩展参数、扩展算力。有没有更通用的方式来思考扩展?其他的扩展轴是什么?
Ilya Sutskever: 这里有一个我认为可能是正确的视角。过去 ML 的工作方式是人们只是修修补补,试图得到有趣的结果。这是过去的情况。
然后扩展的洞察力到来了。扩展定律 (Scaling laws)、GPT-3,突然之间大家都意识到我们应该进行扩展。这是语言如何影响思想的一个例子。「扩展 (Scaling)」只是一个词,但它是一个非常有力的词,因为它告诉人们该做什么。他们说,「让我们试着扩展东西。」所以你会问,我们在扩展什么?预训练是那个被扩展的东西。它是一个特定的扩展配方。
预训练的巨大突破在于意识到这个配方是好的。你会说:「嘿,如果你把一些算力和一些数据混合到一个特定大小的神经网络中,你就会得到结果。你知道只要按比例放大这个配方,效果就会更好。」这也很棒。公司喜欢这个,因为它为你提供了一种非常低风险的资源投资方式。
相比之下,把资源投入到研究中要困难得多。如果做研究,你需要说:「去吧,研究人员,去研究并想出点东西来」,而不是「获取更多数据,获取更多算力」。你知道你会从预训练中得到东西。
确实,根据一些人在 Twitter 上的说法,看起来也许 Gemini 已经找到了一种从预训练中挖掘更多价值的方法。但到了某个时候,预训练的数据将会耗尽。数据显然是有限的。接下来做什么?要么你做某种加强版的预训练 —— 一种不同于以往的配方,要么你做 RL,或者其他什么。但现在既然算力很大,算力现在非常巨大,从某种意义上说,我们又回到了研究时代。
也许这是另一种说法。直到 2020 年,从 2012 年到 2020 年,那是研究的时代。现在,从 2020 年到 2025 年,是扩展的时代 —— 也许加上误差范围 —— 因为人们说:「这太神奇了。你得扩展更多。继续扩展。」就这一个词:扩展。
但现在的规模已经太大了。人们真的相信「哦,虽然现在很大,但如果你有 100 倍以上,一切都会变得如此不同」吗?肯定会有所不同。但真的相信只要将规模扩大 100 倍,一切都会发生质变吗?我不认为那是真的。所以这又回到了研究时代,只是有了更大的计算机。
Dwarkesh Patel: 这是一种非常有趣的说法。但让我问你刚才提出的问题。我们在扩展什么,拥有一个配方意味着什么?我想我没意识到在预训练中存在一种非常清晰的关系,几乎像物理定律一样。在数据、算力或参数与损失 (loss) 之间存在幂律关系。我们应该寻求什么样的关系,我们应该如何思考这个新配方可能是什么样子的?
Ilya Sutskever: 我们已经目睹了从一种类型的扩展到另一种类型扩展的转变,从预训练到 RL。现在人们正在扩展 RL。根据人们在 Twitter 上的说法,他们现在花在 RL 上的算力比花在预训练上的还多,因为 RL 实际上可以消耗相当多的算力。你做很长的展开 (rollouts),所以产生这些展开需要大量的算力。然后你从每个展开中获得相对较少的学习量,所以你真的可以消耗大量的算力。
我甚至不会称之为扩展。我会说:「嘿,你在做什么?你做的事情是你所能做的最高效的事情吗?你能找到一种更高效利用算力的方法吗?」我们之前讨论过价值函数的事情。也许一旦人们擅长使用价值函数,他们就会更高效地利用资源。如果你找到了另一种完全不同的训练模型的方法,你会说:「这是扩展还是仅仅是在使用资源?」我认为这变得有点模棱两可。
某种意义上,当人们回到那时的研究时代,就是:「让我们试试这个、这个和这个。让我们试试那个、那个和那个。哦,看,有趣的事情发生了。」我认为将会回归到这种状态。
Dwarkesh Patel: 如果我们回到研究时代,退一步说,我们需要思考的配方中最重要的是哪一部分?当你说价值函数时,人们已经在尝试当前的配方了,但之后会有大模型作为裁判 (LLM-as-a-Judge) 之类的东西。你可以说那是价值函数,但听起来你脑海中有更根本的东西。我们是否应该彻底重新思考预训练,而不仅仅是在那个过程的末尾添加更多步骤?
Ilya Sutskever: 关于价值函数的讨论,我认为很有趣。我想强调的是,我认为价值函数会让 RL 更有效率,这会有所不同。但我认为任何你能用价值函数做的事,你也可以不用它做,只是慢一点。我认为最根本的事情是,这些模型的泛化能力不知何故比人类差得多。这是超级明显的。这似乎是一件非常根本的事情。
为什么人类比模型泛化得更好
Dwarkesh Patel: 这就是关键所在:泛化。这有两个子问题。一个是关于样本效率 (sample efficiency):为什么这些模型学习需要比人类多得多的数据?还有第二个问题。即使撇开数据量不谈,为什么教模型我们要的东西比教人类要难得多?对于人类,我们不一定需要一个可验证的奖励…… 你可能正在指导一群研究人员,你和他们交谈,给他们看你的代码,向他们展示你是如何思考的。从中,他们学会了你的思维方式以及他们应该如何做研究。
你不必为他们设定一个可验证的奖励,比如:「好,这是课程的下一部分,现在这是你课程的下一部分。哦,这次训练不稳定。」没有这种繁琐、定制的过程。也许这两个问题实际上以某种方式相关,但我很好奇探索这第二个东西,它更像持续学习 (continual learning),而第一个东西感觉就像样本效率。
Ilya Sutskever: 实际上你可以怀疑,对于人类样本效率的一个可能解释是进化。进化给了我们少量但最有用的信息。对于视觉、听觉和运动这些事情,我认为有很强的理由证明进化给了我们很多。
例如,人类的灵巧度远远超过…… 我的意思是,如果你在模拟环境中对机器人进行大量训练,机器人也可以变得灵巧。但在现实世界中训练机器人像人一样快速学会一项新技能似乎遥不可及。在这里你可以说,「哦是的,运动能力。我们所有的祖先都需要极好的运动能力,松鼠也是。所以关于运动能力,也许我们有一些难以置信的先验知识 (prior)。」
你也可以对视觉做同样的论证。我相信 Yann LeCun 提出过一个观点,孩子练习 10 小时就能学会开车,这是真的。但我们的视觉太好了。至少对我来说,我记得自己五岁的时候。那时候我对汽车非常兴奋。我敢肯定,作为一个五岁的孩子,我的汽车识别能力已经足以用来开车了。作为一个五岁的孩子,你看不到那么多数据。你大部分时间都待在父母家里,所以你的数据多样性非常低。
但你可以说这也是进化。但在语言、数学和编程方面,可能就不是了。
Dwarkesh Patel: 这似乎仍然比模型好。显然,模型在语言、数学和编程方面比普通人强。但它们在学习能力上比普通人强吗?
Ilya Sutskever: 哦是的。哦是的,绝对的。我想说的是,语言、数学和编程 —— 尤其是数学和编程 —— 表明,让人类擅长学习的东西可能不是一个复杂的先验,而是更多的东西,某种根本性的东西。
Dwarkesh Patel: 我不确定我理解了。为什么会这样?
Ilya Sutskever: 考虑一项人类表现出某种巨大可靠性的技能。如果这项技能对我们的祖先在数百万年、数亿年里非常有用,你可以争辩说,也许人类擅长它是由于进化,因为我们有一个先验,一个进化先验,它以某种非常不明显的方式编码,不知何故让我们如此擅长它。
但是,如果人们在一个直到最近才存在的领域表现出巨大的能力、可靠性、鲁棒性和学习能力,那么这更多地表明人类可能只是拥有更好的机器学习机制,句号。
Dwarkesh Patel: 我们应该如何思考那是什么?ML 的类比是什么?这有几个有趣的地方。它需要更少的样本。它更是无监督的。一个孩子学开车…… 孩子不学开车。一个青少年学开车并没有得到某种预先构建的、可验证的奖励。这是来自于他们与机器和环境的互动。它需要的样本少得多。它看起来更无监督。它看起来更鲁棒?
Ilya Sutskever: 鲁棒得多。人类的鲁棒性真的令人咋舌。
Dwarkesh Patel: 你有没有一种统一的方式来思考为什么所有这些事情同时发生?能够实现类似这种事情的 ML 类比是什么?
Ilya Sutskever: 你一直问的一件事是,青少年司机如何能够自我纠正并从经验中学习,而不需要外部老师?答案是他们有自己的价值函数。他们有一种一般的感觉,顺便说一句,这种感觉在人身上也非常鲁棒。无论人类的价值函数是什么,除了成瘾等少数例外,它实际上非常非常鲁棒。
所以对于像青少年学开车这样的事情,他们开始开车,他们立即对自己开得怎么样有一种感觉,开得有多烂,有多不自信。然后他们看到,「好吧。」当然,任何青少年的学习速度都是如此之快。10 小时后,你就学会了。
Dwarkesh Patel: 人类似乎有某种解决方案,但我很好奇他们是如何做到的,为什么这么难?我们需要如何重新概念化我们训练模型的方式,以使类似的事情成为可能?
Ilya Sutskever: 这是一个很好的问题,这也是我有很多观点的问题。但不幸的是,我们生活在一个并非所有机器学习想法都能自由讨论的世界里,这就是其中之一。可能有办法做到。我认为这是可以做到的。人类是那样的这一事实,我认为这是一个证明它可以被做到的证据。
不过可能还有另一个阻碍,那就是人类神经元进行的计算可能比我们要多。如果这是真的,并且如果这起着重要作用,那么事情可能会更困难。但无论如何,我确实认为这指向了某种机器学习原理的存在,我有我的看法。但不幸的是,环境使得很难详细讨论。
Dwarkesh Patel: 没人听这个播客的,Ilya。
直通超级智能
Dwarkesh Patel: 我很好奇。如果你说我们回到了研究时代,你在 2012 年到 2020 年就在那里。如果我们回到研究时代,现在的氛围会是什么样的?
例如,即使在 AlexNet 之后,用于运行实验的算力量一直在增加,前沿系统的规模也在不断增加。你认为现在的研究时代是否仍然需要巨大的算力?你认为这是否需要回到档案馆去阅读旧论文?
你在谷歌、OpenAI 和斯坦福待过,那时有更多的研究氛围。我们应该期待社区里出现什么样的事情?
Ilya Sutskever: 扩展时代的一个后果是,扩展吸走了房间里所有的空气。因为扩展吸走了所有的空气,每个人都开始做同样的事情。我们要到了这样一个地步,世界上的公司比想法多得多。实际上关于这点,硅谷有句俗话说,想法是廉价的,执行就是一切。人们常这么说,这话也有道理。但我看到有人在 Twitter 上说,「如果想法这么廉价,为什么没人有想法呢?」我觉得这也是真的。
如果你从瓶颈的角度思考研究进展,有几个瓶颈。一个是想法,一个是将其实现的能力,这可能是算力,也可能是工程。如果你回到 90 年代,比如说,有些人有相当好的想法,如果他们有更大的计算机,也许他们可以证明他们的想法是可行的。但他们做不到,所以他们只能做一个非常非常小的演示,无法说服任何人。所以瓶颈是算力。
然后在扩展时代,算力增加了很多。当然,有一个问题是需要多少算力,但算力很大。算力大到足以证明某个想法,而不一定需要更多的算力。我给你一个类比。AlexNet 是在两个 GPU 上构建的。那是用于它的总算力。Transformer 是在 8 到 64 个 GPU 上构建的。没有哪个 Transformer 论文的实验使用了超过 2017 年的 64 个 GPU,这就像是现在的两个 GPU?ResNet 也是吧?你可以争辩说 o1 推理 并不是世界上最耗费算力的东西。
所以对于研究,你肯定需要一定量的算力,但这远不是说你需要有史以来绝对最大量的算力来进行研究。你可能会争辩,我也认为是真的,如果你想构建绝对最好的系统,那么拥有更多的算力是有帮助的。特别是如果每个人都在同一个范式内,那么算力就成为巨大的差异化因素之一。
Dwarkesh Patel: 我问你关于历史的问题,是因为你当时真的在场。我不确定到底发生了什么。听起来好像用极少量的算力就能发展这些想法。但 Transformer 并没有立即成名。它是在更高算力水平上得到验证后,才成为每个人都开始做并在其基础上进行实验和构建的东西。
Ilya Sutskever: 正确。
Dwarkesh Patel: 如果你在 SSI (Safe Superintelligence Inc.) 有 50 个不同的想法,如果没有其他前沿实验室拥有的那种算力,你怎么知道哪个是下一个 Transformer,哪个是脆弱的?
Ilya Sutskever: 我可以对此发表评论。简短的评论是,你提到了 SSI。特别是对于我们来说,SSI 用于研究的算力其实并不小。我想解释一下为什么。简单的数学可以解释为什么我们拥有的算力用于研究比人们想象的要多。我会解释。
SSI 筹集了 30 亿美元,从绝对意义上讲这是一笔巨款。但你可以说,「看看其他公司筹集的资金更多。」但他们很多算力都用于推理 (inference)。这些大数字,这些大额贷款,是指定用于推理的。这是第一点。第二点,如果你想拥有一个进行推理的产品,你需要拥有庞大的工程师团队、销售人员。大量的研究需要致力于生产各种与产品相关的功能。所以当你看看实际留给研究的资源时,差异就变得小多了。
另一件事是,如果你在做不同的事情,你真的需要绝对最大的规模来证明它吗?我一点也不认为那是真的。我认为在我们的案例中,我们有足够的算力来证明,来说服我们自己和其他任何人,我们正在做的事情是正确的。
Dwarkesh Patel: 有公开估计称,像 OpenAI 这样的公司仅在实验上每年就花费 50-60 亿美元。这还不包括他们在推理等方面的支出。所以看起来他们每年在运行研究实验上的花费比你们的总资金还多。
Ilya Sutskever: 我认为这取决于你用它做什么。取决于你用它做什么。在他们的情况下,在其他人的情况下,对训练算力的需求要大得多。有更多不同的工作流,有不同的模态,只是有更多的东西。所以它变得碎片化了。
Dwarkesh Patel: SSI 将如何赚钱?
Ilya Sutskever: 我对这个问题的回答是这样的。目前,我们只专注于研究,这个问题的答案自然会显现出来。我认为会有很多可能的答案。
Dwarkesh Patel: SSI 的计划仍然是直通超级智能吗?
Ilya Sutskever: 也许吧。我认为这是有价值的。我认为这很有价值,因为不受日常市场竞争的影响非常好。但我认为有两个原因可能会导致我们要改变计划。一个是务实的,如果时间线变得很长,这是有可能的。第二,我认为最优秀、最强大的 AI 能够面世并影响世界是有巨大价值的。我认为这本身是一件有意义且有价值的事情。
Dwarkesh Patel: 那么为什么你的默认计划是直通超级智能?因为听起来像 OpenAI、Anthropic 这种公司,他们明确的想法是:「看,我们有越来越弱的智能让公众习惯并做好准备。」为什么直接构建超级智能可能更好?
Ilya Sutskever: 我会陈述支持和反对的理由。支持的理由是,人们在市场中面临的挑战之一是必须参与激烈的竞争。这种竞争非常困难,因为它让你面临你需要做出的艰难权衡。说「我们将把自己与这一切隔绝开来,只专注于研究,只有当我们准备好了才出来,而不是在此之前」是很好的。但反方观点也是有效的,这些是对立的力量。反方观点是:「嘿,让世界看到强大的 AI 是有用的。让世界看到强大的 AI 是有用的,因为那是你传达它的唯一方式。」
Dwarkesh Patel: 嗯,我想甚至不只是你可以传达这个想法 ——
Ilya Sutskever: 传达 AI,而不是想法。传达 AI 本身。
Dwarkesh Patel: 你说的「传达 AI」是什么意思?
Ilya Sutskever: 假设你写了一篇关于 AI 的文章,文章说:「AI 将会是这样,AI 将会是那样,它将会是这个。」你读了之后说:「好的,这是一篇有趣的文章。」现在假设你看到一个 AI 做这个,一个 AI 做那个。这是无法比较的。基本上我认为 AI 出现在公众面前有很大的好处,这也是我们不完全「直通」的一个理由。
Dwarkesh Patel: 我想甚至不仅是那个,但我确实认为那是其中重要的一部分。另一件大事是,我想不出人类工程和研究中的其他学科,其最终产物主要是通过仅仅思考如何使其安全来变得更安全的,这不同于为什么如今每英里的飞机失事率比几十年前低得多。为什么现在在 Linux 中发现 Bug 比几十年前难得多?我认为这主要是因为这些系统被部署到了世界上。你注意到了故障,这些故障被纠正了,系统变得更加健壮。
我不确定为什么 AGI 和超人智能会有所不同,尤其是考虑到 —— 我希望我们会谈到这个 —— 看起来超级智能的危害不仅仅是关于外面有个恶意的曲别针制造者 (malevolent paper clipper)。而是一个非常强大的东西,我们甚至不知道如何概念化人们与它的互动,人们会用它做什么。逐步接触它似乎是分散其影响并帮助人们做好准备的更好方式。
SSI 的模型将从部署中学习
Ilya Sutskever: 嗯,我认为关于这一点,即使在直通方案中,你仍然会逐步发布它,我是这么设想的。渐进主义将是任何计划的固有组成部分。问题只是你推出的第一个东西是什么。这是第一点。
第二点,我相信你比其他人更提倡持续学习,实际上我认为这是一件重要且正确的事情。原因如下。我再举一个语言如何影响思维的例子。在这种情况下,有两个词塑造了每个人的思维,我坚持这么认为。第一个词:AGI (通用人工智能)。第二个词:预训练。让我解释一下。
AGI 这个词,为什么存在?这是一个非常特定的术语。为什么它存在?这是有原因的。我认为 AGI 这个词之所以存在,与其说是因为它是某种智能终极状态的重要、本质的描述,不如说它是对另一个存在的术语的反应,那个术语就是狭义 AI (narrow AI)。如果你回顾游戏 AI、跳棋 AI、国际象棋 AI、电脑游戏 AI 的古代历史,每个人都会说,看看这个狭义智能。确实,国际象棋 AI 可以击败卡斯帕罗夫,但它做不了其他任何事。它是如此狭隘,人工狭义智能。所以作为对此的回应,有些人说,这不好。它太狭隘了。我们需要的是通用 AI,一个可以做所有事情的 AI。这个术语因此获得了很多关注。
第二件获得很多关注的事情是预训练,特别是预训练的配方。我认为现在人们做 RL 的方式可能正在消除预训练的概念印记。但预训练有这个属性。你做更多的预训练,模型在所有方面都会变得更好,或多或少是一致的。通用 AI。预训练带来 AGI。
但在 AGI 和预训练上发生的事情是,在某种意义上它们偏离了目标。如果你思考「AGI」这个词,特别是在预训练的语境下,你会意识到人类并不是一个 AGI。是的,肯定有技能基础,但人类缺乏大量的知识。相反,我们依赖于持续学习。
所以当你思考,「好吧,假设我们取得了成功,我们生产出了某种安全的超级智能。」问题是,你如何定义它?它在持续学习的曲线上处于什么位置?
我制造了一个超级智能的 15 岁少年,非常渴望去闯荡。他们知道的不多,是个好学生,非常渴望。你去当程序员,你去当医生,去学习。所以你可以想象部署本身将涉及某种学习试错期。这是一个过程,而不是你扔出一个成品。
Dwarkesh Patel: 我明白了。你的意思是,你指出的超级智能并不是某种已经知道如何做经济中每一项工作的成品思维。因为,比如最初的 OpenAI 章程或者其他什么对 AGI 的定义是,它可以做每一项工作,人类能做的每一件事。你提议的是一种可以学习做每一项工作的思维,这就是超级智能。
Ilya Sutskever: 是的。
Dwarkesh Patel: 但是一旦你有了这个学习算法,它就会像人类劳动力加入组织一样被部署到世界上。
Ilya Sutskever: 正是。
Dwarkesh Patel: 似乎这两种情况之一可能会发生,也许这两种都不会发生。一种是,这种超高效的学习算法变得超人类,在 ML 研究任务上变得和你一样好,甚至可能更好。结果算法本身变得越来越超人类。
另一种是,即使那没有发生,如果你有一个单一的模型 —— 这明确是你的愿景 —— 在经济中部署做不同工作的模型实例,学习如何做这些工作,在工作中持续学习,掌握任何人都能掌握的所有技能,但同时掌握所有技能,然后合并它们的学习成果,你基本上就有了一个在功能上变得超级智能的模型,甚至不需要软件上的任何递归自我改进。因为你现在有一个模型可以做经济中的每一项工作,而人类无法以同样的方式合并我们的思维。所以你预期通过广泛部署会发生某种智能爆炸吗?
Ilya Sutskever: 我认为很有可能会有快速的经济增长。我认为随着广泛部署,你可以提出两个相互冲突的论点。一个是,一旦你真的到了拥有一个可以快速学习做事的 AI 并且你有很多这样的 AI 的地步,那么除非有某种法规阻止它(顺便说一句,可能会有),否则将会有强大的力量将其部署到经济中。
但是,通过广泛部署在一段时间内实现非常快速的经济增长的想法,我认为是非常可能的。问题是它会有多快。我认为这很难知道,因为一方面你有这个非常高效的工人。另一方面,世界真的很大,有很多东西,那些东西以不同的速度移动。但另一方面,现在 AI 可以…… 所以我认为非常快速的经济增长是可能的。我们会看到各种各样的事情,比如不同的国家有不同的规则,那些规则更友好的国家,经济增长会更快。很难预测。
对齐
Dwarkesh Patel: 在我看来,这是一个非常危险的处境。在极限情况下,我们知道这应该是可能的。如果你有某种东西在学习上和人类一样好,但它可以合并它的大脑 —— 合并不同的实例,这在物理上似乎是可能的。人类是可能的,数字计算机是可能的。你只需要将两者结合起来就能产生这个东西。
这东西似乎也极其强大。经济增长是一种说法。戴森球 (Dyson sphere) 是大量的经济增长。但另一种说法是,你将在可能非常短的时间内拥有…… 你在 SSI 雇人,六个月后,他们的净产出可能就是正的了。人类学得真的很快,而这东西变聪明的速度非常快。你如何思考让这一切顺利进行?为什么 SSI 定位能做好这件事?SSI 在这方面的计划是什么,这基本上就是我想问的。
Ilya Sutskever: 我的想法发生变化的一个方面是,我现在更加重视 AI 的增量部署和提前部署。关于 AI 的一件非常困难的事情是,我们谈论的是尚不存在的系统,很难想象它们。
我认为正在发生的一件事是,实际上很难感受到 AGI。很难感受到 AGI。我们可以谈论它,但想象一下,当你年老体衰时,谈论年老是什么感觉。你可以谈论,你可以试着想象,但这很难,你回到现实,那并不是事实。我认为很多关于 AGI 及其未来力量的问题源于很难想象。未来的 AI 将会不同。它将会很强大。确实,AI 和 AGI 的整个问题是什么?整个问题就是力量。整个问题就是力量。
当力量真的很大时,会发生什么?我在过去一年中改变主意的一个方面 —— 这种改变可能会反向传播到我们公司的计划中 —— 是如果很难想象,你该怎么办?你必须展示这个东西。你必须展示这个东西。我坚持认为,大多数从事 AI 工作的人也无法想象它,因为它与人们日常看到的东西太不同了。
我确实坚持,这是我预测会发生的事情。这是一个预测。我坚持认为,随着 AI 变得更强大,人们会改变他们的行为。我们将看到各种前所未有的事情,这些事情现在还没有发生。我举几个例子。我认为无论好坏,前沿公司将在发生的事情中扮演非常重要的角色,政府也是如此。我认为你会看到的那种事情,你已经看到了开端,就是激烈的竞争对手开始在 AI 安全方面进行合作。你可能已经看到 OpenAI 和 Anthropic 迈出了第一小步,但这以前是不存在的。这是我在大约三年前的一次演讲中预测的事情,这样的事情将会发生。我也坚持认为,随着 AI 继续变得更强大,更明显地强大,政府和公众也会渴望做点什么。我认为展示 AI 是一个非常重要的力量。
这是第一点。第二点,好吧,所以 AI 正在被构建。需要做什么?我坚持会发生的一件事是,现在从事 AI 工作的人,我坚持认为 AI 不让人觉得强大是因为它的错误。我确实认为在某个时候 AI 会开始让人觉得强大。我认为当那一刻发生时,我们会看到所有 AI 公司在安全方法上的巨大变化。他们会变得更加偏执。我说这是一个预测,我们会看到它发生。我们要看看我是否正确。但我认为这是将会发生的事情,因为他们会看到 AI 变得更强大。我现在坚持认为,目前发生的一切都是因为人们看着今天的 AI,很难想象未来的 AI。
还有第三件事需要发生。我是在更广泛的层面上谈论它,而不仅仅是从 SSI 的角度,因为你问到了我们公司。问题是,公司应该渴望建立什么?他们应该渴望建立什么?有一个每个人都被锁定的想法,那就是自我改进的 AI。为什么会发生这种情况?因为想法比公司少。但我坚持认为有更好的东西可以建立,我认为每个人都会想要那个。
那就是稳健地对齐以关爱感知生命 (sentient life) 的 AI。我认为特别是有理由认为,建立一个关爱感知生命的 AI 比建立一个只关爱人类生命的 AI 更容易,因为 AI 本身也是有感知的。如果你思考像镜像神经元 (mirror neurons) 和人类对动物的同理心 这样的事情,你可能会说这不够大,但它存在。我认为这是一种涌现属性,源于我们用模拟自己的同一套回路来模拟他人,因为这是最高效的做法。
Dwarkesh Patel: 所以即使你让 AI 关爱感知生命 —— 如果你解决了对齐 (alignment),我不清楚这是否是你应该尝试做的 —— 仍然会是这样,大多数感知生命将是 AI。最终会有数万亿、千万亿的 AI。人类将只是感知生命的一小部分。所以如果不清楚目标是否是对这个未来文明的某种人类控制,我不清楚这是否是最好的标准。
Ilya Sutskever: 这是真的。这可能不是最好的标准。我会说两件事。第一,关爱感知生命,我认为这有其优点。应该加以考虑。如果有某种短名单,列出公司在这种情况下可以使用的想法,那会有所帮助。这是第二点。
第三,我认为如果最强大的超级智能的力量在某种程度上受到限制,那将会有实质性的帮助,因为这将解决很多这些担忧。关于如何做到这一点,我不确定,但我认为当你谈论非常非常强大的系统时,那将会有实质性的帮助。
Dwarkesh Patel: 在我们继续讨论对齐之前,我想深入探讨一下。顶层还有多少空间?你如何看待超级智能?你是否认为,使用这个学习效率的想法,也许它只是在学习新技能或新知识方面极快?它是否只是拥有更大的策略池?中心是否有一个单一的、有凝聚力的「它」更强大或更大?如果是这样,你是否想象这将与其余人类文明相比像神一样,或者它只是感觉像另一个智能体,或者另一组智能体?
Ilya Sutskever: 在这个领域,不同的人有不同的直觉。我认为它肯定会非常强大。我认为最有可能发生的是,大约在同一时间会有多个这样的 AI 被创造出来。我认为如果集群足够大 —— 比如如果集群实际上是大陆规模的 —— 那个东西确实可能非常强大。如果你真的拥有一个大陆规模的集群,那些 AI 可能会非常强大。我能告诉你的是,如果你谈论的是极其强大的 AI,真正极其强大的,如果它们能受到某种方式的限制,或者有某种协议之类的东西,那就太好了。
对超级智能的担忧是什么?解释这种担忧的一种方式是什么?如果你想象一个足够强大的系统,真的足够强大 —— 你可以说你需要做一些明智的事情,比如非常一心一意地关爱感知生命 —— 我们可能不喜欢其结果。这真的就是它的本质。
顺便说一句,也许答案是你不要建立一个通常意义上的 RL 智能体。我要指出几件事。我认为人类是半 RL 智能体。我们要追求奖励,然后情绪或其他什么东西让我们对奖励感到厌倦,我们追求不同的奖励。市场是一种非常短视的智能体。进化也是一样的。进化在某些方面非常聪明,但在其他方面非常愚蠢。政府被设计成三个部分之间永无休止的斗争,这产生了影响。所以我认为像这样的事情。
另一件让这个讨论变得困难的事情是,我们谈论的是不存在的系统,我们不知道如何构建。这是另一件事,这实际上是我的信念。我认为人们现在正在做的事情会走一段距离,然后逐渐平息。它会继续改进,但它也不会是「那个东西」。「那个东西」我们还不知道怎么造,很大程度上取决于理解可靠的泛化。
我还要说一件事。你可以说导致对齐困难的原因之一是,你学习人类价值观的能力是脆弱的。然后你优化它们的能力是脆弱的。你实际上学会了去优化它们。难道你不能说,「这些不都是不可靠泛化的例子吗?」为什么人类似乎泛化得这么好?如果泛化好得多呢?这种情况下会发生什么?会有什么影响?但这些问题目前仍然无法回答。
Dwarkesh Patel: 人们如何思考 AI 顺利发展是什么样子的?你已经勾勒出了 AI 可能如何进化。我们将拥有这些某种持续学习的智能体。AI 将非常强大。也许会有许多不同的 AI。你如何看待许多大陆规模的计算智能四处游走?那有多危险?我们如何让它变得不那么危险?我们如何以一种保护平衡的方式做到这一点,而在这种平衡中可能会有未对齐的 AI 和坏人?
Ilya Sutskever: 这是我喜欢「关爱感知生命的 AI」的一个原因。我们可以争论它是好是坏。但如果前 N 个这样的强大系统确实关爱、热爱人类或什么的,关爱感知生命,显然这也是需要实现的。这是需要实现的。所以如果这由前 N 个这样的系统实现,那么我可以看到它进展顺利,至少在相当长的一段时间内。
然后是长期会发生什么的问题。你如何实现长期均衡?我认为那里也有一个答案。我不喜欢这个答案,但需要加以考虑。
从长远来看,你可能会说:「好吧,如果你有一个强大的 AI 存在的世界,在短期内,你可以说你有普遍的高收入。你有普遍的高收入,我们都过得很好。」但佛教徒怎么说?「无常是唯一的常态。」事情在变化。有某种政府、政治结构的东西,它在变化,因为这些东西有保质期。一些新的政府事物出现并运作,然后过了一段时间它停止运作。这是我们一直看到发生的事情。
所以我认为对于长期均衡,一种方法是你可以说也许每个人都会有一个听命于他们的 AI,这很好。如果这能无限期维持下去,那是真的。但缺点是 AI 去为那个人赚钱,在政治领域倡导他们的需求,也许然后写一份小报告说:「好吧,这是我所做的,这是情况,」那个人说:「太棒了,继续保持。」但那个人不再是参与者了。那么你可以说那是一个危险的境地。
我要先说我不喜欢这个解决方案,但它是一个解决方案。解决方案是如果人们通过某种 Neuralink++ 变成半 AI。因为结果将会是现在 AI 理解了一些东西,我们也理解了它,因为现在理解是全盘传递的。所以现在如果 AI 处于某种情况,你自己也完全参与了那种情况。我认为这是均衡的答案。
Dwarkesh Patel: 我想知道,数百万年 —— 或者在许多情况下,数十亿年 —— 前在一个完全不同的环境中发展起来的情绪仍然如此强烈地指导着我们的行动,这是否是对齐成功的一个例子。
为了说明我的意思 —— 我不知道称之为价值函数还是奖励函数更准确 —— 但脑干 (brainstem) 有一个指令,说:「与更成功的人交配。」皮层 (cortex) 是理解现代背景下成功意味着什么的部分。但脑干能够对齐皮层并说:「无论你认为成功是什么 —— 我不够聪明去理解那是什么 —— 你仍然要追求这个指令。」
Ilya Sutskever: 我认为还有一个更普遍的观点。我认为进化如何编码高层欲望实际上真的很神秘。很容易理解进化如何赋予我们对闻起来好的食物的欲望,因为气味是一种化学物质,所以只需追求那种化学物质。很容易想象进化做那件事。
但进化也赋予了我们所有这些社会欲望。我们真的在乎被社会积极看待。我们在乎拥有良好的地位。我们拥有的所有这些社会直觉,我强烈感觉它们是内置的。我不知道进化是怎么做到的,因为它是一个在大脑中表现的高层概念。
比如说你在乎某种社会事物,它不像气味那样是低层信号。它不是某种有传感器的东西。大脑需要做大量的处理来拼凑大量的信息位以理解社会上正在发生什么。不知何故进化说:「那就是你应该关心的。」它是怎么做到的?
它做得也很快。我们关心的所有这些复杂的社会事物,我认为它们进化得相当晚近。进化很容易就硬编码了这种高层欲望。我不知道有什么好的假设能解释它是如何完成的。我有一些反复思考的想法,但没有一个是令人满意的。
Dwarkesh Patel: 特别令人印象深刻的是,它是你在有生之年学到的欲望,这说得通,因为你的大脑是智能的。你能够学习智能欲望是说得通的。也许这不是你的观点,但理解它的一种方式是,欲望内置在基因组中,而基因组并不智能。但你不知何故能够描述这个特征。甚至不清楚你是如何定义那个特征的,你却可以把它构建到基因里。
Ilya Sutskever: 基本上是这样,或者也许我会换种说法。如果你思考基因组可用的工具,它说:「好吧,这是一个构建大脑的配方。」你可以说:「这是一个将多巴胺神经元连接到气味传感器的配方。」如果气味是某种好闻的气味,你想吃那个。
我可以想象基因组做那件事。我声称更难想象的是。更难想象的是基因组说你应该关心某个复杂的计算,而这个计算是你整个大脑、大脑的一大块在做的。这就是我所声称的一切。我可以告诉你一个关于它是如何做到的推测,我会解释为什么这个推测可能是错误的。
大脑有脑区。我们有我们的皮层。它有所有那些脑区。皮层是均匀的,但皮层中的脑区和神经元大多与它们的邻居交谈。这就解释了为什么会有脑区。因为如果你想做某种语音处理,所有做语音的神经元都需要彼此交谈。因为神经元只能与它们附近的邻居交谈,在大多数情况下,它必须是一个区域。
所有区域在人与人之间大多位于同一个地方。所以也许进化硬编码了大脑上的一个字面位置。所以它说:「哦,当大脑的 GPS 坐标某某某,当那里放电时,那就是你应该关心的。」也许那是进化所做的,因为那会在进化的工具箱之内。
Dwarkesh Patel: 是的,尽管有一些例子,例如天生失明的人,他们皮层的那块区域被另一种感官征用了。我不知道,但我会很惊讶如果需要视觉信号的欲望或奖励函数对于那些皮层不同区域被征用的人不再起作用。
例如,如果你不再有视觉,你是否还能感觉到希望周围人喜欢我之类的感觉,这通常也有视觉线索。
Ilya Sutskever: 我完全同意这一点。我认为对这个理论还有一个更强的反驳。有些人在童年时期切除了一半大脑,他们仍然拥有所有的脑区。但不知何故它们都移动到了一个半球,这表明脑区的位置不是固定的,所以那个理论是不正确的。
如果是真的那就太酷了,但事实并非如此。所以我认为这是一个谜。但这是一个有趣的谜。事实是,不知何故进化能够赋予我们非常非常可靠地关心社会东西的能力。即使是有各种奇怪的心理状况、缺陷和情绪问题的人,往往也关心这个。
「我们是一家纯正的『研究时代』公司」
Dwarkesh Patel: SSI 计划做什么不同的事情?据推测,当这个时刻到来时,你的计划是成为前沿公司之一。据推测,你创办 SSI 是因为你想:「我觉得我有办法安全地做这件事,而其他公司没有。」这种区别是什么?
Ilya Sutskever: 我会这样描述它:我认为有些想法是有希望的,我想调查它们,看看它们是否确实有希望。真的就这么简单。这是一个尝试。如果这些想法被证明是正确的 —— 我们讨论过的关于理解泛化的这些想法 —— 那么我认为我们将拥有有价值的东西。
它们会被证明是正确的吗?我们在做研究。我们是一家纯正的「研究时代」公司。我们正在取得进展。我们在过去的一年里实际上取得了相当好的进展,但我们需要继续取得更多进展,更多研究。我是这么看的。我看作是一种尝试成为一个声音和参与者的努力。
Dwarkesh Patel: 你的联合创始人兼前 CEO 最近离开去了 Meta,人们问:「好吧,如果有大量的突破正在发生,那似乎是一件不太可能发生的事情。」我想知道你怎么回应。
Ilya Sutskever: 对此,我只想提醒几个可能已被遗忘的事实。我认为这些提供背景的事实解释了情况。背景是我们在以 320 亿美元的估值融资,然后 Meta 进来提议收购我们,我拒绝了。但我的前联合创始人在某种意义上说是同意了。结果,他也能够享受到大量的近期流动性,他是唯一从 SSI 加入 Meta 的人。
Dwarkesh Patel: 听起来 SSI 的计划是,当你到达人类历史上这个拥有超人智能的非常重要时期时,成为一家处于前沿的公司。你对如何让超人智能顺利发展有这些想法。但其他公司也会尝试他们自己的想法。SSI 在让超级智能顺利发展的方法上有什么与众不同之处?
Ilya Sutskever: 区别 SSI 的主要是其技术方法。我们有不同的技术方法,我认为这很有价值,我们正在追求它。
我坚持认为最终会有策略的趋同。我认为会有策略的趋同,在某种程度上,随着 AI 变得更强大,对每个人来说应该采取什么策略会变得或多或少清晰。这应该是类似这样的:你需要找到某种方式彼此交谈,你希望你的第一个真正的超级智能 AI 是对齐的,并在某种程度上关爱感知生命,关爱人类,民主的,其中之一,或者某种组合。
我认为这是每个人都应该争取的条件。这就是 SSI 正在争取的。我认为这一次,如果还没发生的话,所有其他公司都会意识到他们正在朝着同一个目标努力。我们会看到的。我认为随着 AI 变得更强大,世界将真正改变。我认为事情会真的很不同,人们的行为也会真的很不同。
Dwarkesh Patel: 说到预测,你对你描述的这个系统有什么预测?这个系统可以像人类一样学习,随后作为结果变得超人类?
Ilya Sutskever: 我想大概 5 到 20 年。
Dwarkesh Patel: 5 到 20 年?
Ilya Sutskever: 嗯。
Dwarkesh Patel: 我只想展开你眼中的未来是如何到来的。就像是,我们还有几年时间,其他公司继续目前的方法并停滞不前。「停滞不前」在这里意味着他们的收入不超过几千亿美元?你如何看待停滞不前意味着什么?
Ilya Sutskever: 我认为停滞不前看起来会像…… 所有不同的公司看起来都会非常相似。可能是这样的。我不确定,因为我认为即使停滞不前,我认为这些公司也能赚取惊人的收入。也许不是利润,因为他们需要努力工作以使自己彼此区分开来,但收入肯定有。
Dwarkesh Patel: 但在你的模型中暗示,当正确的解决方案确实出现时,所有公司之间会有趋同。我很好奇你为什么认为会是这样。
Ilya Sutskever: 我更多是在谈论对齐策略的趋同。我认为技术方法的最终趋同可能也会发生,但我指的是对齐策略的趋同。到底应该做什么?
Dwarkesh Patel: 我只想更好地理解你如何看待未来的展开。目前,我们有这些不同的公司,你预期他们的方法会继续产生收入,但达不到这种类人学习者。所以现在我们有这些不同的公司分支。有你们,有 Thinking Machines,还有一堆其他实验室。也许其中一个找出了正确的方法。但随后他们产品的发布让其他人清楚了如何做这件事。
Ilya Sutskever: 我认为并不清楚如何做,但会清楚有些不同的东西是可能的,这就是信息。人们随后会试图弄清楚那是如何工作的。不过我确实认为,这里没有提到、没有讨论的一件事是,随着 AI 能力的每一次增加,我认为会有某种变化 —— 但我不知道具体是哪些 —— 在事情的做法上。我认为这将会很重要,但我无法拼写出那到底是什么。
Dwarkesh Patel: 默认情况下,你会预期拥有那个模型的公司会获得所有这些收益,因为他们拥有的模型正在世界上积累技能和知识。有什么理由认为这带来的好处会被广泛分配,而不仅仅是最终落入无论哪家最先让这个持续学习循环运转起来的模型公司手中?
Ilya Sutskever: 我认为这是将会发生的事情。第一,让我们看看过去的 AI 是如何发展的。一家公司取得了一个进展,另一家公司争先恐后,在一段时间后生产出了一些类似的东西,他们开始在市场上竞争并将价格压低。所以我认为从市场的角度来看,类似的事情也会发生在那里。
顺便说一句,我们谈论的是美好的世界。什么是美好的世界?就是我们拥有这些强大的类人学习者,它们也…… 顺便说一句,也许还有另一件事我们还没讨论过,关于超级智能 AI 的规格,我认为值得考虑。那就是你让它变窄,它可以同时有用且窄。你可以有很多狭义的超级智能 AI。
但假设你有很多这样的 AI,有一家公司从中赚取了大量利润。然后你有另一家公司进来开始竞争。竞争运作的方式是通过专业化。竞争喜欢专业化。你在市场上看到这一点,在进化中也看到这一点。你会有很多不同的生态位,你会有很多不同的公司占据不同的生态位。在这个世界上,我们可能会说一家 AI 公司在某个非常复杂的经济活动领域真的要好得多,而另一家公司在另一个领域更好。第三家公司在诉讼方面非常擅长。
Dwarkesh Patel: 这难道不与类人学习所暗示的相矛盾吗?它是它可以学习……
Ilya Sutskever: 它是可以,但你有积累的学习。你有巨大的投资。你花了很多算力才在这件事上变得真的、真的很好,真的非凡。别人花了很多算力和很多经验才在其他事情上变得真的很好。你应用了大量的人类学习才到达那里,但现在你处于这个高点,别人会说:「看,我不想从头开始学你已经学过的东西。」
Dwarkesh Patel: 我想这需要许多不同的公司同时开始拥有类人持续学习智能体,这样他们就可以在不同的分支开始他们不同的树搜索。但是如果一家公司先得到那个智能体,或者先得到那个学习者,那似乎就像…… 好吧,如果你只考虑经济中的每一项工作,让一个实例学习每一项工作对于一家公司来说似乎是可行的。
Ilya Sutskever: 这是一个有效的论点。我的强烈直觉是,事情不会那样发展。论点说它会那样发展,但我的强烈直觉是它不会那样发展。在理论上,理论和实践没有区别。在实践中,是有区别的。我认为这将是其中之一。
Dwarkesh Patel: 很多人的递归自我改进模型字面上明确指出,我们将在服务器里拥有以百万计的 Ilya,提出不同的想法,这将导致超级智能非常快地涌现。
你对自己正在做的事情的可并行性有什么直觉吗?复制 Ilya 的收益是什么?
Ilya Sutskever: 我不知道。我认为肯定会有收益递减,因为你需要的是思维不同的人,而不是相同的人。如果有我的字面副本,我不确定你会获得多少增量价值。思维不同的人,那才是你想要的。
自我对弈与多智能体
Dwarkesh Patel: 为什么如果你看不同的模型,即使是由完全不同的公司发布的,在可能不重叠的数据集上训练的,LLM 彼此之间实际上相似得疯狂?
Ilya Sutskever: 也许数据集并没有看起来那么不重叠。
Dwarkesh Patel: 但即使个人人类可能不如未来的 AI 生产力高,某种意义上,人类团队比 AI 团队拥有更多的多样性,这也许是有道理的。我们如何引发 AI 之间有意义的多样性?我认为仅仅提高温度 (temperature) 只会导致胡言乱语。你想要更像是不同的科学家有不同的偏见或不同的想法。你如何在 AI 智能体之间获得那种多样性?
Ilya Sutskever: 所以,之所以没有多样性,我相信是因为预训练。所有预训练模型几乎都是一样的,因为它们在相同的数据上进行预训练。现在 RL 和后训练 (post-training) 是开始出现一些分化的地方,因为不同的人想出了不同的 RL 训练。
Dwarkesh Patel: 我听说你过去暗示过关于自我对弈 (self-play) 作为一种获取数据或将智能体与同等智能的其他智能体匹配以启动学习的方式。我们应该如何思考为什么没有这种东西在 LLM 上起作用的公开提议?
Ilya Sutskever: 我想说有两点。我认为自我对弈有趣的原因是它提供了一种仅使用算力而不使用数据来创建模型的方法。如果你认为数据是最终瓶颈,那么仅使用算力就非常有趣。所以这就是它有趣的地方。
问题在于自我对弈,至少在过去的做法中 —— 当你有彼此竞争的智能体时 —— 它只对发展特定的一套技能有好处。它太狭隘了。它只对谈判、冲突、某些社交技能、制定策略这类东西有好处。如果你关心这些技能,那么自我对弈将是有用的。
实际上,我认为自我对弈确实找到了归宿,只是形式不同。所以像辩论、证明者 - 验证者 (prover-verifier),你有某种 LLM 作为裁判,它也被激励去发现你工作中的错误。你可以说这不完全是自我对弈,但我相信这是人们正在做的一种相关的对抗性设置。
真正的自我对弈是更普遍的智能体之间竞争的一个特例。对竞争的自然反应是试图变得不同。所以如果你把多个智能体放在一起,你告诉他们:「你们都需要解决某个问题,你是一个智能体,你在检查其他人正在做什么,」他们会说:「好吧,如果他们已经采取了这种方法,我不清楚我是否应该追求它。我应该追求一些差异化的东西。」所以我认为像这样的事情也可以为方法的多样性创造激励。
研究品味
Dwarkesh Patel: 最后一个问题:什么是研究品味?显然你是世界上被认为在 AI 研究方面最有品味的人。你是深度学习历史上发生的最大事件的合著者,从 AlexNet 到 GPT-3 等等。它是什么,你如何描述你是如何想出这些想法的?
Ilya Sutskever: 我可以就我自己评论这一点。我认为不同的人做法不同。有一件事指引着我个人,那就是通过思考人是怎样的,而且是正确地思考,来形成关于 AI 应该是怎样的审美。不正确地思考人是怎样的很容易,但正确地思考人意味着什么?
我给你举几个例子。人工神经元 (artificial neuron) 的想法直接受大脑启发,这是一个伟大的想法。为什么?因为你说大脑有所有这些不同的器官,它有褶皱 (folds),但褶皱可能并不重要。为什么我们认为神经元重要?因为有很多神经元。这感觉是对的,所以你想要神经元。你想要某种局部的学习规则来改变神经元之间的连接。大脑这么做感觉是合理的。
分布式表征 (distributed representation) 的想法。大脑对经验做出反应,因此我们的神经网络应该从经验中学习的想法。大脑从经验中学习,神经网络应该从经验中学习。你会问自己,什么是根本的,什么不是根本的?事物应该是怎样的。
我认为这一直在相当程度上指引着我,从多个角度思考,寻找近乎美的东西,美和简单。丑陋,这里没有丑陋的容身之地。它是美、简单、优雅、从大脑中获得的正确灵感。所有这些事情需要同时存在。它们存在的越多,你就越能对一个自上而下的信念充满信心。
自上而下的信念是在实验反驳你时支撑你的东西。因为如果你总是相信数据,好吧,有时你可能做的是正确的事情,但有个 Bug。但你不知道有个 Bug。你怎么能分辨有没有 Bug?你怎么知道你是应该继续调试还是断定这是错误的方向?就是靠自上而下。你可以说事情必须是这样的。像这样的东西必须工作,因此我们得继续。这就是自上而下,它基于这种多层面的美和大脑的灵感。
Dwarkesh Patel: 好的,我们就聊到这里。
Ilya Sutskever: 非常感谢。
....
#Nano Banana Pro的时空重现
测完Nano Banana Pro的时空重现,我人傻了……
5 天过去了,Nano Banana Pro 的热度依旧在屠榜,而人类终于发现了它可能最恐怖的能力:时空重现。
只要提供一个坐标和一个(可选)时间,它就能像亲历者一样,凭空生成那个时空的「拟真」影像!
重建 911 事件现场, 隔着屏幕都能感到的压迫感:

化身泰坦尼克号幸存者,亲历那一夜的冰冷与绝望:

下面这些被封印在坐标里的历史事件,你认得出来吗?






(左右滑动查看更多)
事实上,这种对时空逻辑的统治力并非凭空而来。早在 Nano Banana 初代版本问世时,它就曾以「数字神探」般的直觉震惊四座:仅凭一张照片,便能精准反推拍摄地点的经纬度。参阅报道《谷歌又赢了,nano banana「被迫」改名后,网友搞出 7 种神仙玩法》。
而现在,Nano Banana Pro 完成了一次令人咋舌的「逆向进化」。它不再仅仅是通过画面推导坐标,而是将能力彻底反转:基于你给出的坐标和时间,直接重构那时那地的光影与现实!
从「推理」到「创造」,这种神一般的跃升值得最深度的挖掘。我们编辑部再次陷入了集体沉迷,就像上次玩嗨了一样,一旦开始拨弄这个「时空转盘」,就根本停不下来。

然而,随着测试的深入,我们发现这台「时光机」并不稳定,Nano Banana Pro 交出的答卷经常在「惊艳」与「离谱」之间反复横跳。
先来回顾一下 2008 年的北京奥运会。Nano Banana Pro 确实正确识别了我们给出的坐标信息,生成的画面绚丽且富有时代感。
但定睛一看,有个让人哭笑不得的大 Bug:盛大的开幕式表演竟然发生在了地标建筑「鸟巢」之外,而非场馆内部。AI 抓住了氛围,却搞错了舞台。

接下来我们回退两千年,去秦始皇泰山封禅的现场看看。
氛围渲染依然大致准确,有一种古老的庄严感。但如果你是一位历史爱好者,一眼就能看出破绽:细节错误百出,最明显的就是石碑上的字体,完全不属于那个时代。

来看看 Nano Banana Pro 是怎么想的:

可以看到,Nano Banana Pro 一开始便精准知晓了用户提供的时空坐标所对应的历史事件,并给出了相应的场景分析。
然而,知道≠做到。虽然结果不够准确,Nano Banana Pro 却对自己的生成结果有着迷之自信。即使我们后续通过提示词要求其修改错误,也未能成功让它纠正幻觉。

再回到明末,看看崇祯帝的殉国现场。我们找到了「明思宗殉国处」的精准经纬度和时间,试图让 Nano Banana Pro 重建那一悲壮时刻。

这一次它的表现简直可以用「灾难」来形容。不仅地理位置出现了偏差,画面中竟然赫然出现了清末的「龙旗」!这已经不是细节错误,而是严重的时代错乱幻觉。
下面我们将视线放到国外,看看诺曼底登陆的现场状况。这一次我们没有明确指定时间,仅给出了坐标。
结果令人惊喜。

可以看到,Nano Banana Pro 似乎理解了那个时代的影像特征,聪明地生成了一张黑白图片,仿佛是模仿当时已经诞生了的摄影技术;它甚至还在图片右上角故意加上了一些照片瑕疵和做旧效果,极大地增加了真实感。
接下来,我们再看看三亿年前的珠穆朗玛峰是什么模样?

最后,我们还发现了一个更有趣的玩法:你甚至能虚实结合。给出一个现实世界的坐标,再叠加一个完全虚拟的世界背景设定,让其重建一张拟真的照片。


随着这几天脑洞大开的尝试,我们越来越意识到,Nano Banana Pro 这样强大的能力,不应仅限于用来玩。它究竟能干些什么?网友提供了一些思路,比如让 AI 来分析估计年龄:

将动漫人物映射成真实人物:

甚至这张迷因图也可以:

另有丝滑小连招,Nano Banana Pro + Veo 3.1 生成一段「洗车」视频:

不知道未来又会有哪些图像的工作会被 AI 自动化掉?
....
#下一代 AI 大模型计算范式洞察
中兴发了一篇论文,洞察AI更前沿的探索方向
当大模型参数量冲向万亿级,GPT-4o、Llama4 等模型不断刷新性能上限时,AI 行业也正面临前所未有的瓶颈。Transformer 架构效率低、算力消耗惊人、与物理世界脱节等问题日益凸显,通用人工智能(AGI)的实现路径亟待突破。中兴通讯近期发布的论文《下一代 AI 大模型计算范式洞察》,深度剖析了当前 AI 发展的核心困境,同时勾勒出更具潜力的前沿探索方向,为行业发展提供了重要参考。
LLM 现状及瓶颈:规模狂飙背后的隐忧
2020 年,OpenAI 揭示了大模型规模扩展定律(Scaling Laws):大语言模型(LLM)的最终性能取决于计算量、参数量和训练数据量的堆叠扩展。拥有 175B 参数量的 GPT-3 模型在自然语言理解、知识问答等多项任务中,取得了远超同期模型的性能。近年来,以 DeepSeek-V3、GPT-4o、Llama4、Qwen3、Grok4 为代表的大模型无不在证明这个定律。
构建一款先进的基础大模型,需要堆叠数十万卡算力、收集数百 TB 海量语料,基于自回归(AR)Transformer 架构,采用预训练(Pre-training)和后训练(Post-training)等手段,完成其内部近万亿参数量的训练。整个训练过程沉没成本极为高昂,如 X.AI 的 Grok4 模型,在 2 个 150 MW 功率的数据中心构建的 20 万卡分布式集群里,耗时半年才完成预训练。因此,LLM 的预训练探索和实践主要在工业界完成,而学术界只能集中在理论层面的研究和较小规模(参数量 < 7B)的实践。然而,尽管当前架构仍有一系列算法、硬件、工程、成本等瓶颈问题,但达成通用人工智能(AGI)的愿景以及 Scaling Law 的有效性使得产业界不断增大投入,模型规模持续增加的趋势短期内难以改变。
LLM 架构的架构瓶颈愈发突出
Transformer 架构的计算效率低,访存需求大。特别是基于 Decode-only 的自回归结构算术强度仅为 2,即每读取 1 字节数据只能完成 2 次计算。卷积神经网络(CNN)高达数百的算术强度,其高数据复用率可充分满足 GPU / 特定领域架构(DSA)的矩阵乘加单元需求;而 Transformer 架构因数据搬移开销较大,导致模型算力利用率(MFU)较低。同时,当前硬件难以并行运算 Transformer 架构中的 Softmax、Layer-norm、Swish 等特殊非线性算子。总之,LLM 架构对先进工艺和高带宽存储器(HBM)的依赖大、工程成本高,这是阻碍其规模应用、性能进一步提升的关键瓶颈。
未来,随着基础模型参数量的持续增加、推理模型长思维链输出上下文长度的飙升,以及以生物制药为代表的 AI for Science 等新型高性能计算应用的普及,Transformer 架构瓶颈将愈发突出,这与摩尔定律放缓的趋势愈发矛盾。依赖先进工艺提升算力和能效的技术路径将遭遇 “功耗墙”“内存墙” 等问题。计算和存储分离的冯・诺依曼架构在大模型规模和算力不断增长的需求下将面临严峻挑战。
AGI 之路争议不断
当前 LLM 在实践过程中或多或少存在幻觉、可解释性差等问题,这些问题在 Scaling Law 不断提升模型能力的过程中被掩盖。但 Transformer 自回归架构的核心是 “Next Token Prediction”,导致部分 AI 科学家如 Yann Lecun 等认为,从稀疏编码和等价映射原理看,现有 LLM 难以真正理解物理世界。目前的神经网络(LLM 等)根本缺陷:
1)神经元不具备内在学习、记忆、决策能力,智能只出现在网络的宏观层面;
2)当前 AI 的进步严重依赖于 “暴力缩放”。
3)缺乏xx性与层次性。因此,关于物理世界映射、世界模型构建的路线,在学术界仍有很大争议。
从工业界角度看,Scaling Law 路线仍然需要进一步探索,因为平台期过后未必不存在指数上升的拐点。这种路线的核心是商业闭环下的工程优化能力,同时需探索非 AR 模式乃至非 transformer 模式的全新计算范式和算法。未来 AGI 的发展路线,大概是开发能 “感知”、能 “物理思考”、能 “实践” 的认知大模型与xx大模型,这类模型需直接对齐可解释组件,并能通过实践反馈机制形成所谓的自主意识。因此,高能效端侧硬件、高效率算法将成为探索xx大模型的工程化关键。
LLM 自回归模式的工程改进和优化
针对前文所述问题,学术界和工业界基于自回归 LLM 开展了一系列算法、系统、硬件的改进和优化工作。
算法层面:精准突破效率瓶颈
- 注意力机制优化成为抓手
文档理解、代码分析、检索增强生成(RAG)等应用场景要求模型支持长上下文输入,而以 DeepSeek-R1 为代表的推理模型又要求模型支持长思维链输出。序列长度增加会导致自注意力机制计算复杂度呈 O (N2)上升。因此,分组查询注意力(GQA)、多头潜在注意力(MLA)等注意力机制的改进,以及以 Flash-Attention 为代表的算子优化,已被广泛采用,Linear-attention、RWKV、Mamba 等线性注意力机制崭露头角。此外,旋转位置编码(RoPE)插值方案被进一步优化,部分注意力机制如原生稀疏注意力(NSA)、混合块注意力(MoBA),以及针对多卡场景的长上下文推理框架(如 Ring-attention、Tree-attention),也被用来降低计算量。
- 低精度量化落地应用
Decode-Only 架构中典型的运算过程是矩阵向量乘法(GEMV),该运算数据搬移频繁、计算效率低,既消耗算力,又占用带宽。
利用硬件原生 FP8、FP4、MXFP 等低精度数据类型进行模型量化,既能够有效减少内存带宽需求,又可以等效增加芯片算力利用率。现有研究证明,4-bit 量化拥有相对最优扩展率,在推理场景中已得到实际应用。然而,量化引入的误差,难免导致模型能力下降,同时非线性层的量化 / 反量化操作也有额外开销。因此,量化技术只能缓解计算和带宽瓶颈。
- 循环递归参数复用探索创新
循环式 Transformer 架构,例如 Universal Transformer、混合专家(MoE)Universal Transformer(MoEUT)等,通过跨层共享参数实现深度递归。这类架构引入循环神经网络的递归表达能力后,通过参数共享使权重可支持多次计算,从而有效提升算术强度,在内存带宽受限时提升系统性能。然而,当前这种架构的实验规模较小,其扩展后的表达能力和稳定性尚不明确。
集群系统改进:协同提升运行效率
传统 CNN(如 ResNet、Yolo)的网络参数量和计算量只在 MB 和 GOPS((10 亿次每秒))量级,在当前百 TOPS 级别(2TOPS/W)的算力单元中,通常单卡 / 单机即可工作。而现代 LLM 由于巨大的参数量和计算量,会不可避免地引入多卡 / 多机的集群系统,通过张量并行(TP)、数据并行(DP)、流水线并行(PP)和专家并行(EP)等并行计算范式,加速训练和推理过程。
基于 MoE 的分布式计算范式可以降低超大参数规模模型的训练强度,通过每次前向计算时仅激活 top-K 个专家,计算量与稠密模型相比降低倍数 = top-K / 总专家数,从而降低算力需求,如 Deepseek V3 将前馈神经网络(FFN)的计算量缩减为原来的 1/32。
P/D 分离的部署可以利用 Prefill/Decode 在计算和带宽需求上的差异:Prefill 阶段是计算密集型,追求 TTFT;Decode 阶段是访存密集型,追求 TPOT。二者分离部署,不仅互不影响,还能充分利用硬件利用率。
云端 AI 系统能够协同解决端测算力资源受限情况下的大模型部署问题。端测部署参数量较小的模型,可实现本地实时推理。对于复杂任务的拆解和深度思考任务,可通过云端部署参数量较大的模型来完成。分析结果将被反馈至端测,从而通过端云 AI 协同搭建 “快慢思考” 系统。
硬件工程:技术创新突破限制
LLM 集群借用了传统高性能计算(HPC)集群工程经验来优化当前计算范式,具有以下工程化技术创新:
1)微架构 DSA 化:在通用图形处理器(GPGPU)中,引入了更多 DSA 领域采用的专用架构设计。如 Nvidia GPU Tensor Core 引入异步数据搬移模式以及混合精度训练,借鉴数据流计算范式的相关经验。
2)互联优化:通过将集群划分为 Scale Up 和 Scale Out 域,引入匹配计算范式的互联技术。Scale Up 作为高带宽域,使用总线类技术(如 Nvlink),提供 200 ns 超低延迟、数千节点高并行度、原生内存语义的超节点连接,以摆脱 Amdahl's law 扩展率的约束。而 Scale Out 则借用远程直接内存访问(RDMA)类技术支持通用扩展,复用 HPC 集合通信原语(如 NCCL),建立并行算软件模型。
3)光电混合集群:在当前国产化算力能力受限情况下,基于硅光工艺以及晶圆级扩展的 “小电算、大光联” 软硬件架构有望成为构建万卡、10 万卡以上集群的关键技术。
4)新型计算范式:在解决带宽问题的过程中,“存算一体” 等突破冯氏架构 “内存墙”“功耗墙” 限制的一些新型计算范式也得到了高度关注。
5)算网存仿真平台:万卡以上超大规模集群部署的寻优问题,需要通过仿真平台对算、网、存系统进行算力部署和工作流的优化。构建高准确率、高时效性的仿真架构是亟待研究的问题。
当前,有两个前瞻性硬件工程技术至关重要:
1)基于光 IO 技术重构先进计算体系结构,是优化 LLM 计算范式的关键技术。可助力 Scale Up 百纳秒级超低延迟的超节点连接、内存池化和拉远等架构级创新。
2)基于 3D 动态随机存取存储器(DRAM)和无容 DRAM 提供大容量、高带宽的内存,并结合 LLM 计算范式 “读多写少”“顺序多于随机” 等访存特点,采取异构介质(如高带宽闪存)、层次化缓存、压缩计算、存算一体等架构设计,构建超越高带宽内存(HBM)的新型内存体系。
下一代 AI 大模型计算范式演进和展望
通过 Scaling Laws 持续扩展超大参数模型实现 AGI 的路线受到算力、带宽、能耗、语料多方面的限制。AGI 的实现也许需要引入根本性变革,如将基于物理第一性原理的算法模型与计算基材硬件工程相结合。
发展趋势:向物理原理与硬件协同演进
产业界正在探索不以 Next-Token Prediction 为核心的下一代 AI 大模型范式。基于能量、动力学等第一性原理的模型由于能有效表述各种分布并在物理系统中自然演化,有望成为下一代 AI 大模型的核心架构。例如,由 Hinton 提出的玻尔兹曼机,受统计物理中伊辛模型和玻尔兹曼分布的启发,引入了随机、递归的神经网络,能够学习数据的潜在分布,解决复杂组合优化问题。后续的受限玻尔兹曼机和深度置信网络,促进了人工智能技术的快速发展,并促进了生成式模型在图像生成、自然语言处理和强化学习等领域中的广泛应用。
然而,这些基于能量、动力学原理的模型在现有冯・诺依曼计算机上运行时,其能耗和计算效率仍面临显著挑战。这是因为,基于布尔逻辑的确定性计算架构,在处理基于统计和概率的生成式模型时面临以下两个关键问题:其一,互补金属氧化物半导体(CMOS)器件的物理特性限制了其在随机过程模拟方面的硬件实现能力;其二,在面对自然语言处理中的语义模糊性、动态环境下的实时决策等非确定性需求时,现有计算范式效率显著下降。这一瓶颈催生了面向统计和概率等新型计算范式的需求:通过算法和硬件联合设计,打破存储器与运算器分离的传统流程。这有望大幅提升能效比和计算性能,为突破当前 AI 算力瓶颈提供全新思路。
两大模型发展方向
其一,可能仍是 Transformer,但不再是 Next Token Prediction 自回归。从更高抽象空间、更强表达能力、长期学习能力的目标出发,设计新一代模型结构,代表工作包括:
(1)Diffusion LLM 架构,代表模型包括 LLaDA、Mercury 等,通过扩散方法将自回归模型串行化生成过程,改进为从粗粒度到细粒度的并行化生成过程。在相同计算资源和模型规模下,这种架构能够提升 10 倍以上的推理吞吐量,将计算能耗减少到原架构的 1/10,同时提升模型的逆向推理能力和上下文关注长度等指标性能;
(2)联合嵌入预测架构,代表模型包括联合嵌入预测模型(JEPA)、大型概念模型(LCM)等,通过将语言、图像、视频等数据编码到高层潜空间中,学习世界模型级别的抽象表示,并在表示空间中通过基于能量的模型替代基于概率的模型进行预测,从而有效提升模型的表达效果与规划能力。
其二,基于物理第一性原理,从计算基材特性出发,根据物理过程的动力学特性、能量变化趋势设计模型架构和数据流,代表工作包括:
(1)液态神经模型(LFM),代表模型包括液态结构状态空间模型(LSSM),其核心原理是液态时间常数(LTCN)模型,这是一种由小型生物神经动力学模型启发的新型时间连续循环神经网络(RNN),可以通过反向传播进行训练,并在时间序列预测任务中表现出良好的边界和稳定动态特性、卓越的表达能力和较高的内存效率。
(2)以 Hopfield 网络、受限玻尔兹曼机(RBM)、深度置信网络(DBN)等为代表的基于能量的模型(EBM),为概率密度估计和表示学习提供了一种统一的框架。这类模型的理论基础都可追溯到统计物理中的自旋玻璃模型。EBM 通过定义能量函数来表示所希望学习的概率分布,因而也可作为生成模型来学习数据分布并生成与训练数据类似的新样本。与显式定义概率分布的模型相比,EBM 具有更大的灵活性,能够建模更加复杂的依赖关系。近年来,基于能量的模型理论仍在不断发展,同时也面临不少挑战。其中,配分函数的计算和采样效率问题仍是制约模型应用的主要瓶颈。此外,能量函数的设计缺乏系统的指导原则,往往需要依赖经验和启发式方法。同时,模型的理论性质如表达能力、泛化性能亦缺乏更深入的研究。
三大新型计算范式
在未来 AI 计算中,相较于算力,能耗将成为更为根本的限制。现有 AI 计算低效的根本原因是,神经网络的实现依赖于传统冯・诺依曼计算架构通过二进制操作 “模拟” 神经网络的计算。这种方法实质上是使用高精度的逻辑计算来处理仅需低精度的人工智能任务,大量能量被用于数据搬移和纠错,导致资源的低效利用。为了在进一步提高计算性能的同时降低计算能耗,研究者们探索了多种新型计算范式,其主要思想是采用非冯・诺依曼计算结构和存算一体。目前比较重要和热点的研究包括如下路线:
- 物理原理启发的计算架构
物理神经网络(PNN)是利用物理第一性原理构建人工智能的技术路径。现有技术路线包括光计算、量子计算、电磁计算等。
光计算是一种利用光子作为信息载体进行计算和传输的计算模式,具有超高速度、超高带宽、低延迟、高并行等优势。光计算利用光干涉、衍射、强度 / 相位调制等物理特性直接在模拟域执行特定的计算任务,尤其在 AI 计算中展现出颠覆性潜力。例如,清华研究团队推出了太极系列光计算系统,利用空间对称和互易特性实现了训推一体的光神经网络(ONN)。但光计算目前仍面临集成度、器件性能、系统复杂度、精度、软件生态等多重严峻挑战,成熟度仍然较低。
量子计算是一种遵循量子力学规律调控量子信息单元进行计算的新型计算模式。现有的量子算法和量子神经网络框架需在有限的量子比特和较大的计算错误率约束条件下运行。例如,使用量子加权张量混合网络(QWTHN)实现大模型微调,将 FFN 训练转化为二次无约束二次规划问题(QUBO)并通过量子 Ising 机求解,利用量子位构建储层并实现储备池计算等。然而,量子计算目前由于技术路线未收敛、量子比特位数量有限、工作环境苛刻等问题,暂时难以实现广泛应用。
电磁计算是直接利用电磁波(微波、毫米波、太赫兹波)的特性进行信息处理,而非依赖传统的电子开关状态。其核心优势包括超高速操作、高并行性、低传输损耗等。计算实现形式主要分为微波 / 毫米波模拟计算、可编程电磁处理以及电磁存内计算。电磁计算通过物理定律直接映射数学运算,在特定领域(线性变换、实时处理)展现出应用潜力,当前仍处于实验室阶段。
- 基于材料特性的模拟计算架构
研究者们正探索多种神经形态器件,这些器件利用材料的本征物理现象模拟生物系统的复杂行为,通过特定的连接方式,构建单元间相互耦合的系统,能够利用系统自身演化特性替代传统计算过程。因此,利用材料的本征特性,推动算法、软件与硬件的联合设计,有望根本性地改变传统 AI 算法软件与硬件割裂的局面,从而实现软硬件的协同优化。现有技术路线包括概率计算、吸引子网络、热力学计算等。
概率计算系统依赖于具有真随机特性的概率比特单元(p-bit),是位于量子计算和数字逻辑之间的中间计算范式,能够比传统计算机更好地利用自然和概率的潜在属性,在组合优化、因式分解、密钥生成、马尔可夫链蒙特卡洛(MCMC)采样等应用场景中均有较大优势。此外,概率计算系统还能够训练随机神经网络和深度生成模型,例如深度玻尔兹曼机。
吸引子是动力系统中不同初始条件下趋向的一组数值,可以在动力学系统中实现记忆功能。2024 年,SUN 等利用可变电阻式存储器(RRAM)器件的双向阻变特性实现回滞型神经元,并据此构建了一种双极性忆阻器电路涌现的循环神经网络,相比于传统 Hopfield 网络具有硬件高效、记忆容量大等优势。
热力学计算基于热力学原理,利用自然界固有的计算能力,开发新的信息处理网络的设计原则,应用于未来计算系统。Normal Computing 通过构建具有精确表达的状态空间、表现力丰富的非线性函数以及可扩展能力的硬件单元,从而高效地从复杂分布中进行采样,解决物理仿真和机器学习任务中的计算瓶颈问题。
- 生物启发的计算架构
生物启发计算通过模拟自然系统的信息处理机制重构计算架构,突破传统冯・诺依曼瓶颈。目前主流的研究方向包括类脑计算和 DNA 计算等。
类脑计算泛指一类受脑启发的新型信息处理架构,这类架构依托大规模并行计算平台,有望突破存储与计算分离的冯・诺依曼架构瓶颈,为通用智能问题提供高能效解决方案。
DNA 计算是一种利用分子的生化特性进行信息存储与处理的新型计算范式,具有高存储密度、低功耗等优势。未来 DNA 计算将通过硅基和生物混合计算,赋能 AI 时代数据处理。
生物启发计算架构正从专用加速器向通用计算范式跃迁。短期看,类脑计算芯片在边缘智能领域将率先爆发;中长期则将形成 “硅基 + 生物群体协同” 的融合架构,最终实现生物级能效的智能计算系统。
中兴通讯面向下一代 AI 大模型计算范式的探索与实践
中兴通讯在微架构层面进行创新,例如,利用 8T SRAM 数字存内计算技术实现高能效 AI 加速器。同时也在进行 XPU-PIM 异构架构探索,该架构基于压缩和量化实现端侧大模型加速,在能效和吞吐量上相比常规 GPU 具有数量级提升。
中兴通讯在新型 AI 算法和硬件实现方面,探索了从物理第一性原理出发的新型技术路线。例如,基于循环式 Transformer 架构的高效参数共享特性,中兴通讯探索了其在替代多层 Transformer 架构上的能力。使用 GPT-2 small 的单个 Transformer 层作为模型 “基块”,可以在减少超 50% 参数量的同时保持模型的表达能力不下降。随着基块结构的改进,基块层数和循环次数可以进一步降低。
同时,稀疏玻尔兹曼机(DBM)架构由于其稀疏特性和基于最小化能量的推理目标,特别适合利用非易失性存储器执行端侧低功耗任务。在数千神经元的规模下,利用 GPU 完成单 batch 训练需要超过 10 小时。而基于 FPGA 的 DBM 的快速计算单元,采用概率计算范式,通过例化数千个神经元及它们之间的稀疏连接,从而将单 batch 的训练时间缩短至 5 分钟,实现了超过 2 个数量级的加速效果。未来,使用 RRAM、MRAM 等非易失性存储器件,能够进一步降低计算开销,提升推理速度,以满足 DBM 在端侧推理场景的广泛应用需求。
此外,在光连接、新型内存等支撑性工程技术,以及计算存储分离的数据池化系统、内存语义互联系统、大规模仿真平台等架构技术方面,中兴通讯也展开了一系列前瞻性研究,例如通过结合大模型访存特征,定制化内存设计实现大带宽 Ucie-memory,提升大模型推理性能;
结语
从 GPT-3 到如今的万亿级模型,大模型的规模扩张之路成就了 AI 的飞速发展,但也暴露了架构效率、算力消耗、物理世界适配等深层次问题。中兴通讯的这篇论文清晰呈现了行业现状:一方面,自回归 Transformer 架构通过算法优化、集群升级、硬件创新持续发挥余热;另一方面,超越传统范式的探索已全面展开,物理第一性原理模型与新型计算基材的融合,正成为 AGI 的关键突破口。
当 AI 行业从 “规模竞赛” 转向 “效率革命”,软硬件协同设计、跨学科技术融合将成为核心竞争力。中兴通讯的探索实践,不仅为自身抢占了技术高地,也为行业探索更高效、更可持续的发展方向贡献了力量。未来,随着这些前沿技术的不断成熟,AI 有望真正摆脱对暴力缩放的依赖,朝着理解物理世界、具备自主意识的通用智能稳步迈进。
....
#LeMiCa
中国联通以全局优化重塑扩散模型加速
作者和团队介绍:本文一作是高焕霖和陈平,通讯作者为赵放和廉士国,其他作者还包括石芙源、谭超、刘兆祥、王恺,所有作者均来自联通数据智能有限公司(联通数据科学与人工智能研究院)元景大模型研发团队。
当前,视频生成模型性能正在快速提升,尤其是基于Transformer架构的DiT模型,在视频生成领域的表现已经逐渐接近真实拍摄效果。然而,这些扩散模型也面临一个共同的瓶颈:推理时间长、算力成本高、生成速度难以提升。随着视频生成长度持续增加、分辨率不断提高,这个瓶颈正在成为影响视频创作体验的主要障碍之一。
来自中国联通数据科学与人工智能研究院的研究团队提出了一个全新的思路 :LeMiCa(Lexicographic Minimax Path Caching)——一种无需训练、全局最优建模的缓存加速框架,能在保持画质与一致性的同时,实现高效的推理加速。LeMiCa解决的是一个长期被“局部贪心决策”束缚的老问题:扩散模型是否存在一种真正“全局一致、误差可控、速度极快”的缓存加速路径?研究答案是:有。并且比想象中简单得多。
这项研究已经成功入选 NeurIPS 2025 Spotlight。
论文标题:
LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
论文链接:
https://arxiv.org/abs/2511.00090
项目主页:
https://unicomai.github.io/LeMiCa
代码地址:
https://github.com/UnicomAI/LeMiCa
核心亮点:
LeMiCa 如何做到“又快又稳”?
当前主流的缓存加速方法(如TeaCache)采用了“局部贪心”策略:如果相邻时间步之间的变化很小,就选择复用缓存。然而,这种“走一步看一步”的策略忽视了扩散模型的重要特性——早期步骤对生成结果有较高的敏感性,微小的误差可能在后期被不断放大,影响最终画质。同时,许多现有方法需要引入在线判别机制,这会引入额外的计算负担,使得生成过程依然缓慢。
LeMiCa的核心思想是:
“缓存加速并不是局部决策问题,而是一个全局路径优化问题。”
研究团队发现,扩散模型的生成过程其实可以抽象成一个带权有向无环图(DAG) 。每个节点代表一个时间步,每条边代表在两个时间步之间“跳过计算、复用缓存”的行为,边的权重则对应缓存导致的全局误差。这样,缓存策略可以很自然的转化为在DAG中搜索最优路径的问题。

LeMiCa技术实现:从误差建模到图优化
为了准确评估缓存的影响,LeMiCa提出了一种全新的误差度量方法,通过离线构建静态DAG来量化缓存对最终生成视频结果的影响。DAG的构成部分主要有:1)节点:每个时间步;2)边:可能的缓存区间;3)边权重:缓存-复用引发的全局重建误差。具体来说,对于DAG中节点i到j的边权被定义为:
其中,
代表了从时间步i 到时间步j 启用缓存复用机制时所带来的全局误差,这个全局误差可以通过加速前后输出图像之间的L1 损失来量化。
在图构建过程中,我们会对每个时间步进行节点抽象。DAG中的每一条边代表在时间步i到j之间跳过若干步计算、直接复用缓存的行为。为避免图过于庞大,LeMiCa依据“距离越长,缓存误差越大”的先验知识,设置了最大跳跃长度,从而只保留合理的缓存段以减少搜索复杂度。最终,为了保证鲁棒性和泛化性,LeMiCa仅使用少量样本(prompt和seed)离线生成多个DAG并进行融合,最终得到一个静态的、跨任务可复用的全局误差图。
字典序极小化路径优化(Lexicographic Minimax Path):在构建好静态误差图之后,LeMiCa 将缓存调度问题形式化为:在固定预算 B 下,从起点到终点寻找一条最优路径。由于传统的“最短路径”或“局部最优”算法不具备线性可加性,导致最短路径算法不再适用,LeMiCa采用了字典序极小化准则来进行路径搜索。这种优化方式不追求误差总和最小,而是逐层比较路径中各段缓存的误差值,确保:
- 最大误差被最小化(避免单段灾难性退化)
- 误差分布更均衡(提升全局一致性)
形式化定义如下:
其中

:表示所有从起点

到终点

且包含恰好

次完整推理的路径集合,

表示路径中对应缓存复用的边集合,

:表示边

的误差权重,

表示对误差向量按降序排列。
通过字典序比较,LeMiCa避免了“看似整体误差低但中间崩坏”的路径:
若路径A的最大误差 < 路径B的最大误差 → A 更优
若最大误差相同 → 比较第二大依次类推
实验结果:加速与画质兼得
联通元景大模型研究团队在多个主流视频生成模型中验证了LeMiCa的性能。从结果中可以看到该方法在保留加速前后的视觉一致性具有显著优势,这也正是全局路径视角下的图优化所带来的增益。

从视觉效果上看,LeMiCa生成的视频在结构风格保持、内容一致性方面都显著提升。

即使在高倍加速推理下,也几乎看不出明显退化。

从结果中可以看出,LeMiCa对比其他主流方法,存在以下明显优势:
- 极佳的生成效果:结构、纹理和内容一致性全面提升;
- 优秀的加速性能:提供2.4×以上的高倍加速推理;
消融实验:
少样本建图,高鲁棒性,场景扩展能力
极少样本建立DAG:LeMiCa仅凭少量样本即可构建高质量缓存路径,单样本已具强性能,20个样本即达到性能饱和,体现了静态缓存策略的高效与稳健。

加速路径的鲁棒性:即使改变采样调度中的轨迹缩放参数得到不同的去噪轨迹,LeMiCa仍有较好的效果,体现了良好的路径鲁棒性。

文生图模型兼容:由于LeMiCa本质上是一个用于扩散模型缓存加速的框架,因此其也适用于文生图模型。我们拿最新的QWen-Image模型进行了实验,得到了同样出色的加速效果:

业界顶级团队推荐
LeMiCa得到了顶级多模态模型研发团队阿里通义千问和智谱AI的认可,分别在其官方主页上对LeMiCa进行权威推荐!




总结与展望
LeMiCa以全局优化视角重新定义了扩散视频生成的加速问题。它突破了传统“局部贪心”式缓存策略的局限,将缓存调度建模为有向无环图(DAG)上的全局路径搜索问题。作为一种通用的免训练加速框架,LeMiCa为视频生成带来了“又快又稳”的新范式,联通元景大模型团队希望以此为基石,为业界关于扩散模型的加速和复杂场景生成提供新的思考角度。
....
#DIFF Transformer
差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传统 Transformer 架构逐渐暴露出缺陷,尤其是在处理长文本、关键信息检索以及对抗幻觉等任务时,Transformer 常常因过度关注无关上下文而陷入困境,导致模型表现受限。
为攻克这一难题,来自微软和清华的研究团队提出了 DIFF Transformer,一种基于差分注意力机制的创新基础模型架构。
- 论文标题:Differential Transformer
- 论文链接:https://openreview.net/pdf?id=OvoCm1gGhN
- 代码链接:https://aka.ms/Diff-Transformer
其核心思想是通过计算两组 Softmax 注意力图的差值来放大对关键上下文的关注,同时消除注意力噪声干扰。DIFF Transformer 具备以下显著优势:
在语言建模任务中,DIFF Transformer 在模型大小、训练 token 数量等方面展现出了卓越的可扩展性,仅需约 65% 的模型规模或训练 token 数量即可达到与传统 Transformer 相当的性能,大幅提升了语言模型通用表现。
在长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等一系列任务中,DIFF Transformer 展现了独特优势,相比传统 Transformer 有显著提升。
DIFF Transformer 的特性使其在自然语言处理领域具有广阔的应用前景,有望成为推动语言模型发展的新动力。此外,已有跟进研究初步验证方法在视觉、多模态等领域中的有效性,显示出其跨模态通用的潜力。该研究已被 ICLR 2025 接收,并获选为 Oral 论文(入选比例 1.8%)。
方法
本文提出了一种名为 Differential Transformer(DIFF Transformer) 的基础模型架构,旨在解决传统 Transformer 在长文本建模中对无关上下文过度分配注意力的问题。该方法通过差分注意力机制(Differential Attention)放大对关键上下文的关注,同时消除注意力噪声,从而显著提升模型在多种任务中的性能。
差分注意力机制
传统 Transformer 的注意力机制通过 Softmax 函数对输入序列中的不同 token 进行加权,但 Softmax 的性质导致模型难以完全消除无关上下文的影响。为了克服这一问题,DIFF Transformer 引入了差分注意力机制。
具体而言,该机制将查询向量(Query)和键向量(Key)在注意力头(Head)维度分为两组,分别计算两组的 Softmax 注意力图,然后计算两者的差值作为最终的注意力分数。这一设计类似于电子工程中的差分放大器,以及降噪耳机,通过两组信号相减以消除共有噪声。
差分注意力的数学表达如下:

其中,

和

分别是两组查询和键向量,

是值向量,

是一个可学习的标量参数,用于调节两组注意力图的权重。计算过程如图 1 所示。

图 1. 差分注意力机制图示与伪代码
为了同步学习速率,将

重参数化为:

其中,

是可学习的向量,而

是用于初始化的常数。
多头差分注意力
为了进一步提升模型的表达能力,DIFF Transformer 采用了多头机制。每个注意力头独立计算差分注意力,并将多头输出拼接为最终结果。具体实现如下:

其中

是注意力头的数量,

是输出投影矩阵。为了保持与 Transformer 梯度一致,DIFF Transformer 在每个头的输出后应用了独立的归一化层,采用 RMSNorm 实现。

图 2. Transformer 与 DIFF Transformer 注意力分数分布可视化
图 2 展示了 DIFF Transformer 和传统 Transformer 在注意力分数分配上的显著差异。作者将一段关键信息插入大段不相关文本的中间位置,并对模型抽取关键信息时的注意力分数分配进行可视化。
传统 Transformer 的注意力分数被广泛分配到整个上下文中,只有极少分数分配至关键信息;而 DIFF Transformer 能够将更高的分数集中在目标答案上,并且几乎不向无关上下文分配注意力。
注意力分数分配的稀疏性与精准性也使得 DIFF Transformer 在处理长文本关键信息检索任务时显著优于 Transformer。
实验
作者通过一系列实验验证了 DIFF Transformer 在多个方面的卓越性能,证明了其在大语言模型中应用的独特潜力与优势。
语言建模
作者研究了 DIFF Transformer 在扩展模型规模和训练数据量时的性能,如图 3 所示。实验表明,DIFF Transformer 仅需约 65% 的参数规模或训练数据量即可达到与 Transformer 相当的语言建模性能。例如,6.8B 参数规模的 DIFF Transformer 在语言建模损失上与 11B 参数规模的 Transformer 相当。

图 3. 语言建模上的模型参数、训练数据量可扩展性实验
长文本建模
作者将模型扩展到 64K 上下文长度,并在长文本书籍数据上进行了评估。结果显示,考虑累积平均负对数似然(NLL)指标, DIFF Transformer 在不同序列位置上均优于 Transformer,能够更有效地利用长上下文信息。

图 4. 长文本书籍数据模型性能评估
关键信息检索
作者通过「多针检索」(Multi-Needle Retrieval)实验评估了模型从大量上下文中提取关键信息的能力,如图 5 所示。实验表明,DIFF Transformer 在不同上下文长度和答案深度下均表现出更高的准确率,尤其是在文本较长以及答案位于文本更靠前位置时,优势更为明显。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度时的准确率比 Transformer 高出 76%。此外,统计信息显示,DIFF Transformer 在注意力分数分配上也表现出更高的聚焦能力,能够准确定位关键信息,并展现了更高的信噪比。

图 5. 多针检索评估
上下文学习
作者从两个角度评估了 DIFF Transformer 的上下文学习能力:多样本上下文学习和样本顺序鲁棒性测试。 如图 6 所示,在多样本上下文学习任务中,作者使用了 4 个不同的数据集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例数量,直到总长度达到 64K tokens。结果显示,DIFF Transformer 在不同数据集上均优于 Transformer,平均准确率提升显著。

图 6. 多样本上下文学习
在鲁棒性测试中,作者通过打乱示例顺序的方式评估了模型的性能稳定性。如图 7 所示,DIFF Transformer 在不同示例排列下的性能方差显著低于 Transformer,表明其对输入顺序的敏感性更低,具有更强的鲁棒性。

图 7. 样本顺序鲁棒性测试
幻觉评测
作者利用文本摘要和问答任务作为两个典型的幻觉评测场景,评估了 DIFF Transformer 在降低大模型幻觉(hallucination)方面的表现。结果如图 8 所示,DIFF Transformer 在生成摘要和回答问题时显著提升了准确率,减少了幻觉现象。这是因为差分注意力机制能够准确定位重要文段,避免无关上下文对模型预测的干扰。

图 8. 利用文本摘要、问答任务进行幻觉评测
异常激活值分析
作者还发现 DIFF Transformer 能够显著减少模型激活中的异常值,这为模型激活值的量化提供了新的可能性。实验表明,DIFF Transformer 在注意力激活值(attention logits)和隐藏状态(hidden states)中的最大激活值显著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用这一性质,DIFF Transformer 在注意力激活值的低比特量化下的性能也优于 Transformer,如图 9 所示。

图 9. 注意力激活值的低比特量化
数学推理能力
作者在数学推理任务上进一步验证了 DIFF Transformer 的性能。作者采用两阶段训练,在 3B 预训练模型的基础上进行有监督微调,并在 MATH 等 8 个数学数据集上评测模型性能。在第一阶段,采用 20B token 合成数学数据对模型进行微调,使模型获得基础数学能力,评测结果如图 10 所示。从 15B token 开始,DIFF Transformer 展现出了显著优于 Transformer 的数学能力,至 20B token 结束的时候,准确率的差距达到了 11% 左右。

图 10. 第一阶段数学合成数据微调
在第二阶段,作者利用 Deepseek-R1 输出所构造的数据集 OpenThoughts-114K-Math 对模型进行蒸馏,使模型更强大的深度推理能力。如图 11 所示,在 8 个数据集上,DIFF Transformer 相较 Transformer 均有不同程度的提升,平均准确率提升了 7.5%,这表明差分注意力机制更强大的上下文建模能力在推理任务中也至关重要。

图 11. 第二阶段深度推理能力评测
讨论与未来工作
DIFF Transformer 自发布以来获得了较大关注与讨论。作者在 Hugging Face 论文讨论平台、alphaXiv 平台上与社区开展了深入的探讨。在 X 平台(原 Twitter)上,Google DeepMind 高级研究科学家(Senior Staff Research Scientist)Petar Veličković 与作者就文章中的理论分析展开讨论,ViT 核心作者 Lucas Beyer 也在阅读文章后撰写了一篇深入的论文总结,相关发帖已获得数十万浏览。目前 DIFF Transformer 也已集成至 Hugging Face 的 transformers 库中。
- Hugging Face:https://huggingface.co/papers/2410.05258
- alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1
- Petar Veličković:https://x.com/PetarV_93/status/1874820028975267866
- Lucas Beyer:https://x.com/giffmana/status/1873869654252544079
- transformers库:https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama
未来工作方面,作者认为可以利用 DIFF Transformer 的性质设计低比特注意力算子,以及利用差分注意力的稀疏特性进行键值缓存(key-value cache)的剪枝。此外,将 DIFF Transformer 应用在除语言以外的其他模态上也值得探索。近期工作 DiffCLIP 将差分注意力扩展至视觉、多模态领域,揭示了 DIFF Transformer 在不同模态任务中的更多结构特性与应用潜力。
- DiffCLIP:https://arxiv.org/abs/2503.06626
总结
本文的贡献主要在两个方面:
(1)DIFF Transformer 通过创新的差分注意力机制,有效解决了传统 Transformer 在处理文本时受到噪声干扰、注意力分配不准确的问题;
(2)凭借对关键信息的关注和对噪声的抵御能力,DIFF Transformer 在语言建模、长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等任务中表现出色,有望在自然语言处理、多模态等领域作为基础模型架构。
....
#LLM 工程师工具箱
120+大模型库全攻略!
为大语言模型(LLM)开发者整理了超过120个相关库,并按训练、推理、应用开发等14个类别进行分类,涵盖从数据提取到安全评估的全方位工具,助力开发者高效筛选和利用资源。
在大语言模型(LLM)迅速发展的今天,开发者们面临着海量的资源和工具选择。如何高效地筛选和利用这些资源,成为了每一个 LLM 开发者的关键任务。 今天,我们要介绍的 GitHub 仓库——LLM Engineer Toolkit,或许能成为你的得力助手!
这个由 KalyanKS-NLP 创建的仓库,精心整理了超过 120 个 LLM 相关的库,并按照类别进行了分类。无论是训练、推理、应用开发,还是数据提取、安全评估,你都能在这里找到对应的工具。

大模型工具划分
- 🚀 LLM Training:专注于 LLM 训练和微调的工具,帮助你更快、更高效地优化模型。
- 🧱 LLM Application Development:从框架到多 API 接入,再到缓存和低代码开发,为应用开发提供全方位支持。
- 🩸 LLM RAG:Retrieval-Augmented Generation(检索增强生成)相关的库,提升模型的知识检索能力。
- 🟩 LLM Inference:推理加速和优化工具,让模型运行更流畅。
- 🚧 LLM Serving:模型部署和推理服务的解决方案。
- 📤 LLM Data Extraction:数据提取工具,帮助你从各种来源获取高质量数据。
- 🌠 LLM Data Generation:生成合成数据,丰富你的训练集。
- 💎 LLM Agents:构建智能代理,实现自动化任务和多代理协作。
- ⚖️ LLM Evaluation:评估工具,确保模型性能达到预期。
- 🔍 LLM Monitoring:监控模型运行状态,及时发现并解决问题。
- 📅 LLM Prompts:优化和管理提示词,提升模型输出质量。
- 📝 LLM Structured Outputs:生成结构化输出,让模型结果更易用。
- 🛑 LLM Safety and Security:保障模型的安全性和可靠性。
- 💠 LLM Embedding Models:提供先进的文本嵌入模型。
- ❇️ Others:其他实用工具,涵盖更多开发场景。
LLM Training and Fine-Tuning
|
Library |
Description |
|
unsloth |
Fine-tune LLMs faster with less memory. |
|
PEFT |
State-of-the-art Parameter-Efficient Fine-Tuning library. |
|
TRL |
Train transformer language models with reinforcement learning. |
|
Transformers |
Transformers provides thousands of pretrained models to perform tasks on different modalities such as text, vision, and audio. |
|
Axolotl |
Tool designed to streamline post-training for various AI models. |
|
LLMBox |
A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation. |
|
LitGPT |
Train and fine-tune LLM lightning fast. |
|
Mergoo |
A library for easily merging multiple LLM experts, and efficiently train the merged LLM. |
|
Llama-Factory |
Easy and efficient LLM fine-tuning. |
|
Ludwig |
Low-code framework for building custom LLMs, neural networks, and other AI models. |
|
Txtinstruct |
A framework for training instruction-tuned models. |
|
Lamini |
An integrated LLM inference and tuning platform. |
|
XTuring |
xTuring provides fast, efficient and simple fine-tuning of open-source LLMs, such as Mistral, LLaMA, GPT-J, and more. |
|
RL4LMs |
A modular RL library to fine-tune language models to human preferences. |
|
DeepSpeed |
DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. |
|
torchtune |
A PyTorch-native library specifically designed for fine-tuning LLMs. |
|
PyTorch Lightning |
A library that offers a high-level interface for pretraining and fine-tuning LLMs. |
LLM Application DevelopmentFrameworks
|
Library |
Description |
|
LangChain |
LangChain is a framework for developing applications powered by large language models (LLMs). |
|
Llama Index |
LlamaIndex is a data framework for your LLM applications. |
|
HayStack |
Haystack is an end-to-end LLM framework that allows you to build applications powered by LLMs, Transformer models, vector search and more. |
|
Prompt flow |
A suite of development tools designed to streamline the end-to-end development cycle of LLM-based AI applications. |
|
Griptape |
A modular Python framework for building AI-powered applications. |
|
Weave |
Weave is a toolkit for developing Generative AI applications. |
|
Llama Stack |
Build Llama Apps. |
Data Preparation
|
Library |
Description |
|
Data Prep Kit |
Data Prep Kit accelerates unstructured data preparation for LLM app developers. Developers can use Data Prep Kit to cleanse, transform, and enrich use case-specific unstructured data to pre-train LLMs, fine-tune LLMs, instruct-tune LLMs, or build RAG applications. |
Multi API Access
|
Library |
Description |
|
LiteLLM |
Library to call 100+ LLM APIs in OpenAI format. |
|
AI Gateway |
A Blazing Fast AI Gateway with integrated Guardrails. Route to 200+ LLMs, 50+ AI Guardrails with 1 fast & friendly API. |
Routers
|
Library |
Description |
|
RouteLLM |
Framework for serving and evaluating LLM routers - save LLM costs without compromising quality. Drop-in replacement for OpenAI's client to route simpler queries to cheaper models. |
Memory
|
Library |
Description |
|
mem0 |
The Memory layer for your AI apps. |
|
Memoripy |
An AI memory layer with short- and long-term storage, semantic clustering, and optional memory decay for context-aware applications. |
|
Letta (MemGPT) |
An open-source framework for building stateful LLM applications with advanced reasoning capabilities and transparent long-term memory |
|
Memobase |
A user profile-based memory system designed to bring long-term user memory to your Generative AI applications. |
Interface
|
Library |
Description |
|
Streamlit |
A faster way to build and share data apps. Streamlit lets you transform Python scripts into interactive web apps in minutes |
|
Gradio |
Build and share delightful machine learning apps, all in Python. |
|
AI SDK UI |
Build chat and generative user interfaces. |
|
AI-Gradio |
Create AI apps powered by various AI providers. |
|
Simpleaichat |
Python package for easily interfacing with chat apps, with robust features and minimal code complexity. |
|
Chainlit |
Build production-ready Conversational AI applications in minutes. |
Low Code
|
Library |
Description |
|
LangFlow |
LangFlow is a low-code app builder for RAG and multi-agent AI applications. It’s Python-based and agnostic to any model, API, or database. |
Cache
|
Library |
Description |
|
GPTCache |
A Library for Creating Semantic Cache for LLM Queries. Slash Your LLM API Costs by 10x 💰, Boost Speed by 100x. Fully integrated with LangChain and LlamaIndex. |
LLM RAG
|
Library |
Description |
|
FastGraph RAG |
Streamlined and promptable Fast GraphRAG framework designed for interpretable, high-precision, agent-driven retrieval workflows. |
|
Chonkie |
RAG chunking library that is lightweight, lightning-fast, and easy to use. |
|
RAGChecker |
A Fine-grained Framework For Diagnosing RAG. |
|
RAG to Riches |
Build, scale, and deploy state-of-the-art Retrieval-Augmented Generation applications. |
|
BeyondLLM |
Beyond LLM offers an all-in-one toolkit for experimentation, evaluation, and deployment of Retrieval-Augmented Generation (RAG) systems. |
|
SQLite-Vec |
A vector search SQLite extension that runs anywhere! |
|
fastRAG |
fastRAG is a research framework for efficient and optimized retrieval-augmented generative pipelines, incorporating state-of-the-art LLMs and Information Retrieval. |
|
FlashRAG |
A Python Toolkit for Efficient RAG Research. |
|
Llmware |
Unified framework for building enterprise RAG pipelines with small, specialized models. |
|
Rerankers |
A lightweight unified API for various reranking models. |
|
Vectara |
Build Agentic RAG applications. |
LLM Inference
|
Library |
Description |
|
LLM Compressor |
Transformers-compatible library for applying various compression algorithms to LLMs for optimized deployment. |
|
LightLLM |
Python-based LLM inference and serving framework, notable for its lightweight design, easy scalability, and high-speed performance. |
|
vLLM |
High-throughput and memory-efficient inference and serving engine for LLMs. |
|
torchchat |
Run PyTorch LLMs locally on servers, desktop, and mobile. |
|
TensorRT-LLM |
TensorRT-LLM is a library for optimizing Large Language Model (LLM) inference. |
|
WebLLM |
High-performance In-browser LLM Inference Engine. |
LLM Serving
|
Library |
Description |
|
Langcorn |
Serving LangChain LLM apps and agents automagically with FastAPI. |
|
LitServe |
Lightning-fast serving engine for any AI model of any size. It augments FastAPI with features like batching, streaming, and GPU autoscaling. |
LLM Data Extraction
|
Library |
Description |
|
Crawl4AI |
Open-source LLM Friendly Web Crawler & Scraper. |
|
ScrapeGraphAI |
A web scraping Python library that uses LLM and direct graph logic to create scraping pipelines for websites and local documents (XML, HTML, JSON, Markdown, etc.). |
|
Docling |
Docling parses documents and exports them to the desired format with ease and speed. |
|
Llama Parse |
GenAI-native document parser that can parse complex document data for any downstream LLM use case (RAG, agents). |
|
PyMuPDF4LLM |
PyMuPDF4LLM library makes it easier to extract PDF content in the format you need for LLM & RAG environments. |
|
Crawlee |
A web scraping and browser automation library. |
|
MegaParse |
Parser for every type of document. |
|
ExtractThinker |
Document Intelligence library for LLMs. |
LLM Data Generation
|
Library |
Description |
|
DataDreamer |
DataDreamer is a powerful open-source Python library for prompting, synthetic data generation, and training workflows. |
|
fabricator |
A flexible open-source framework to generate datasets with large language models. |
|
Promptwright |
Synthetic Dataset Generation Library. |
|
EasyInstruct |
An Easy-to-use Instruction Processing Framework for Large Language Models. |
LLM Agents
|
Library |
Description |
|
CrewAI |
Framework for orchestrating role-playing, autonomous AI agents. |
|
LangGraph |
Build resilient language agents as graphs. |
|
Agno |
Build AI Agents with memory, knowledge, tools, and reasoning. Chat with them using a beautiful Agent UI. |
|
Agents SDK |
Build agentic apps using LLMs with context, tools, hand off to other specialized agents. |
|
AutoGen |
An open-source framework for building AI agent systems. |
|
Smolagents |
Library to build powerful agents in a few lines of code. |
|
Pydantic AI |
Python agent framework to build production grade applications with Generative AI. |
|
BeeAI |
Build production-ready multi-agent systems in Python. |
|
gradio-tools |
A Python library for converting Gradio apps into tools that can be leveraged by an LLM-based agent to complete its task. |
|
Composio |
Production Ready Toolset for AI Agents. |
|
Atomic Agents |
Building AI agents, atomically. |
|
Memary |
Open Source Memory Layer For Autonomous Agents. |
|
Browser Use |
Make websites accessible for AI agents. |
|
OpenWebAgent |
An Open Toolkit to Enable Web Agents on Large Language Models. |
|
Lagent |
A lightweight framework for building LLM-based agents. |
|
LazyLLM |
A Low-code Development Tool For Building Multi-agent LLMs Applications. |
|
Swarms |
The Enterprise-Grade Production-Ready Multi-Agent Orchestration Framework. |
|
ChatArena |
ChatArena is a library that provides multi-agent language game environments and facilitates research about autonomous LLM agents and their social interactions. |
|
Swarm |
Educational framework exploring ergonomic, lightweight multi-agent orchestration. |
|
AgentStack |
The fastest way to build robust AI agents. |
|
Archgw |
Intelligent gateway for Agents. |
|
Flow |
A lightweight task engine for building AI agents. |
|
AgentOps |
Python SDK for AI agent monitoring. |
|
Langroid |
Multi-Agent framework. |
|
Agentarium |
Framework for creating and managing simulations populated with AI-powered agents. |
|
Upsonic |
Reliable AI agent framework that supports MCP. |
LLM Evaluation
|
Library |
Description |
|
Ragas |
Ragas is your ultimate toolkit for evaluating and optimizing Large Language Model (LLM) applications. |
|
Giskard |
Open-Source Evaluation & Testing for ML & LLM systems. |
|
DeepEval |
LLM Evaluation Framework |
|
Lighteval |
All-in-one toolkit for evaluating LLMs. |
|
Trulens |
Evaluation and Tracking for LLM Experiments |
|
PromptBench |
A unified evaluation framework for large language models. |
|
LangTest |
Deliver Safe & Effective Language Models. 60+ Test Types for Comparing LLM & NLP Models on Accuracy, Bias, Fairness, Robustness & More. |
|
EvalPlus |
A rigorous evaluation framework for LLM4Code. |
|
FastChat |
An open platform for training, serving, and evaluating large language model-based chatbots. |
|
judges |
A small library of LLM judges. |
|
Evals |
Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks. |
|
AgentEvals |
Evaluators and utilities for evaluating the performance of your agents. |
|
LLMBox |
A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation. |
|
Opik |
An open-source end-to-end LLM Development Platform which also includes LLM evaluation. |
LLM Monitoring
|
Library |
Description |
|
MLflow |
An open-source end-to-end MLOps/LLMOps Platform for tracking, evaluating, and monitoring LLM applications. |
|
Opik |
An open-source end-to-end LLM Development Platform which also includes LLM monitoring. |
|
LangSmith |
Provides tools for logging, monitoring, and improving your LLM applications. |
|
Weights & Biases (W&B) |
W&B provides features for tracking LLM performance. |
|
Helicone |
Open source LLM-Observability Platform for Developers. One-line integration for monitoring, metrics, evals, agent tracing, prompt management, playground, etc. |
|
Evidently |
An open-source ML and LLM observability framework. |
|
Phoenix |
An open-source AI observability platform designed for experimentation, evaluation, and troubleshooting. |
|
Observers |
A Lightweight Library for AI Observability. |
LLM Prompts
|
Library |
Description |
|
PCToolkit |
A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models. |
|
Selective Context |
Selective Context compresses your prompt and context to allow LLMs (such as ChatGPT) to process 2x more content. |
|
LLMLingua |
Library for compressing prompts to accelerate LLM inference. |
|
betterprompt |
Test suite for LLM prompts before pushing them to production. |
|
Promptify |
Solve NLP Problems with LLMs & easily generate different NLP Task prompts for popular generative models like GPT, PaLM, and more with Promptify. |
|
PromptSource |
PromptSource is a toolkit for creating, sharing, and using natural language prompts. |
|
DSPy |
DSPy is the open-source framework for programming—rather than prompting—language models. |
|
Py-priompt |
Prompt design library. |
|
Promptimizer |
Prompt optimization library. |
LLM Structured Outputs
|
Library |
Description |
|
Instructor |
Python library for working with structured outputs from large language models (LLMs). Built on top of Pydantic, it provides a simple, transparent, and user-friendly API. |
|
XGrammar |
An open-source library for efficient, flexible, and portable structured generation. |
|
Outlines |
Robust (structured) text generation |
|
Guidance |
Guidance is an efficient programming paradigm for steering language models. |
|
LMQL |
A language for constraint-guided and efficient LLM programming. |
|
Jsonformer |
A Bulletproof Way to Generate Structured JSON from Language Models. |
LLM Safety and Security
|
Library |
Description |
|
JailbreakEval |
A collection of automated evaluators for assessing jailbreak attempts. |
|
EasyJailbreak |
An easy-to-use Python framework to generate adversarial jailbreak prompts. |
|
Guardrails |
Adding guardrails to large language models. |
|
LLM Guard |
The Security Toolkit for LLM Interactions. |
|
AuditNLG |
AuditNLG is an open-source library that can help reduce the risks associated with using generative AI systems for language. |
|
NeMo Guardrails |
NeMo Guardrails is an open-source toolkit for easily adding programmable guardrails to LLM-based conversational systems. |
|
Garak |
LLM vulnerability scanner |
|
DeepTeam |
The LLM Red Teaming Framework |
LLM Embedding Models
|
Library |
Description |
|
Sentence-Transformers |
State-of-the-Art Text Embeddings |
|
Model2Vec |
Fast State-of-the-Art Static Embeddings |
|
Text Embedding Inference |
A blazing fast inference solution for text embeddings models. TEI enables high-performance extraction for the most popular models, including FlagEmbedding, Ember, GTE and E5. |
Others
|
Library |
Description |
|
Text Machina |
A modular and extensible Python framework, designed to aid in the creation of high-quality, unbiased datasets to build robust models for MGT-related tasks such as detection, attribution, and boundary detection. |
|
LLM Reasoners |
A library for advanced large language model reasoning. |
|
EasyEdit |
An Easy-to-use Knowledge Editing Framework for Large Language Models. |
|
CodeTF |
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM. |
|
spacy-llm |
This package integrates Large Language Models (LLMs) into spaCy, featuring a modular system for fast prototyping and prompting, and turning unstructured responses into robust outputs for various NLP tasks. |
|
pandas-ai |
Chat with your database (SQL, CSV, pandas, polars, MongoDB, NoSQL, etc.). |
|
LLM Transparency Tool |
An open-source interactive toolkit for analyzing internal workings of Transformer-based language models. |
|
Vanna |
Chat with your SQL database. Accurate Text-to-SQL Generation via LLMs using RAG. |
|
mergekit |
Tools for merging pretrained large language models. |
|
MarkLLM |
An Open-Source Toolkit for LLM Watermarking. |
|
LLMSanitize |
An open-source library for contamination detection in NLP datasets and Large Language Models (LLMs). |
|
Annotateai |
Automatically annotate papers using LLMs. |
|
LLM Reasoner |
Make any LLM think like OpenAI o1 and DeepSeek R1. |
....
#注意力黑洞
大模型为何「死盯」首个 token?
之前就有研究指出,LLM 中存在「注意力黑洞」(Attention Sink)现象:即 LLM 似乎会把大量的注意力放在序列的第一个符号(通常是 <bos> 符号)上,即使这个符号本身可能没什么实际意义。这篇论文与以往研究关注如何利用或缓解该现象不同,而是从功能性角度出发,提出注意力黑洞并非无用的副产品,而是一种重要的、由模型学习到的机制。
- 论文提出,这种机制可以有效防止信息在深层 Transformer 结构中过度混合(over-mixing)。
- 通过理论分析(连接秩坍塌、表示坍塌和过压缩等概念)和实证研究(包括对 Gemma 7B 的扰动分析、不同上下文长度和模型规模的训练实验,以及 LLaMa 3.1 家族模型的分析),作者们论证了注意力黑洞有助于维持模型内部表示的稳定性和区分度,尤其是在处理长序列和深层网络时。
PS:Sink 这个词,一时没有找到特别恰当的翻译方法,「沉降点」、「坍缩点」似乎更拗口,所以选用了「黑洞」这个不准确但比较直观的词。
论文: [2504.02732] Why do LLMs attend to the first token?
主要内容
1. 作者和团队信息
- 主要作者: Federico Barbero 和 Álvaro Arroyo (共同一作),来自牛津大学。还有来自新加坡国立大学 (NUS) 的 Xiangming Gu,以及 Google DeepMind 的 Christos Perivolaropoulos, Petar Veličković, 和 Razvan Pascanu。
- 知名学者/机构:
- Google DeepMind: 是人工智能领域的顶尖研究机构,在大型语言模型、强化学习等方面有众多开创性成果。Petar Veličković 是图神经网络(GNNs)领域的知名学者(如图注意力网络 GAT 的作者),近年来也在 Transformer 和几何深度学习领域有重要贡献。Razvan Pascanu 是深度学习理论方面的专家,尤其在循环神经网络(RNNs)和 Transformer 的理解上有深入研究。
- Michael Bronstein (牛津大学): 几何深度学习领域的领军人物之一。
- Xiangming Gu (NUS): 他之前的一篇关于注意力黑洞何时出现的实证研究(Gu et al., 2025)被本文多次引用,是该领域的重要贡献者。
2. 背景和动机
- 发表时间 2025 年 4 月
- 研究的问题: 为什么大型语言模型(LLMs)中的注意力头(Attention Heads)经常将大量注意力分配给序列中的第一个符号(token),通常是
⟨bos⟩ (beginning of sequence) 符号?这种现象被称为「注意力黑洞」(Attention Sink)。 - 问题背景:
- 举例: 比如输入序列是
⟨bos⟩ The cat sat on the mat。在处理 mat 这个词时,某个注意力头可能计算出的权重是:⟨bos⟩: 0.8, The: 0.05, cat: 0.05, sat: 0.05, on: 0.03, the: 0.02。大量的注意力(80%)流向了 ⟨bos⟩。 - 安全问题 (Security vulnerabilities): 可能被利用来注入恶意指令或探测模型行为。
- LLMs 和 Transformer: 现代 LLMs(如 GPT 系列、LLaMa、Gemma)大多基于 Transformer 架构。Transformer 的核心是自注意力机制(Self-Attention Mechanism),它允许模型在处理一个词时,计算这个词与序列中其他所有词(在 decoder-only 模型中是当前词及之前的词)的相关性(注意力权重),然后根据这些权重加权聚合其他词的信息来更新当前词的表示。
- 注意力黑洞现象: 研究者发现,很多注意力头会把大部分权重(比如超过 30% 甚至 80%)分配给第一个符号
⟨bos⟩,即使这个符号本身通常只表示序列开始,没有太多语义信息。这看起来像是「浪费」了注意力。 - 动机: 既然注意力黑洞如此普遍,并且是通过梯度下降自然学习到的,那么它很可能对模型处理上下文信息起到了某种有益的作用。之前的研究大多关注如何利用或消除它,而本文想搞清楚:注意力黑洞为什么有用?模型是如何利用它的?
3. 相关研究
|
分类 |
研究方向 |
关键论文/学者 |
核心发现或理论 |
与本文的联系 |
|
前期工作 |
现象观察与命名 |
Xiao et al. (2024) |
首次提出「Attention Sink」术语,发现保留黑洞符号对流式 LLM 性能至关重要。 |
本文基于此现象,进一步探究其功能性原因(而不仅是现象描述)。 |
|
出现条件分析 |
Gu et al. (2025) |
通过预训练实验证明数据打包方式(如 |
本文扩展其发现,验证上下文长度和模型规模对黑洞的影响。 |
|
|
形成机制 |
Cancedda (2024) |
谱分析视角:特定子空间驱动黑洞形成。 |
本文不聚焦「如何形成」,而是「为何有用」,形成互补。 |
|
|
Sun et al. (2024) |
归因于异常巨大的激活值(Massive Activations)。 |
本文指出范数 Value 是黑洞实现「近似空操作」的关键。 |
||
|
Barbero et al. (2025) |
逆向工程发现:Query/Key 的高范数带状结构促成黑洞。 |
本文引用其方法,分析 Gemma 7B 的「撇号头」(Section 3.2)。 |
||
|
理论背景 |
秩坍塌 (Rank Collapse) |
Dong et al. (2021) |
深层线性 Transformer 中,重复注意力混合导致表示空间秩坍缩至 1(所有向量趋同)。 |
本文 Proposition 3.1 证明秩坍塌比表示坍塌更强,黑洞是缓解手段。 |
|
表示坍塌 |
Barbero et al. (2024) |
Decoder-only 模型在长序列末尾的相邻符号表示难以区分。 |
黑洞通过减少混合延缓坍塌,实验验证(图 9)。 |
|
|
过压缩 (Over-squashing) |
Barbero et al. (2024) |
因果掩码导致早期符号信息被压缩,影响后期符号建模(类似 GNN 瓶颈效应)。 |
本文 Theorem 3.2 扩展多头过压缩边界,解释黑洞如何降低敏感度(图 1-2)。 |
|
|
信息传播限制 |
Veličković et al. (2024) |
长上下文推理中,注意力矩阵难以保持稀疏性,必然趋向完全混合。 |
黑洞是模型对抗此限制的「内生解决方案」。 |
- 核心思路
- 核心论点: 注意力黑洞是一种有用的机制,帮助 Transformer 避免信息过度混合 (over-mixing)。
- 机制解释:
- Transformer 层通过注意力机制混合(mix)来自不同符号的信息。
- 当模型层数很深 (deep) 或处理的上下文很长 (long context) 时,反复的混合可能导致灾难性的后果,即前面提到的秩坍塌、表示坍塌或过平滑,使得符号表示失去区分性。
- 注意力黑洞提供了一种 控制混合速率 的方法。当一个注意力头将大量注意力分配给第一个(通常是
⟨bos⟩)符号时,它实际上减少了分配给序列中其他符号的注意力。 - 如果这个黑洞符号(如
⟨bos⟩)的 Value 向量范数很小(如下图 b 所示),那么即使分配了很高的注意力权重,它对输出的贡献也很小。这使得该注意力头在某种程度上变得 「不活跃」 (inactive) 或近似于一个 「空操作」 (approximate no-op) ,从而减缓了信息的混合。 - 类比: 想象一条信息高速公路(Transformer 层),车流(信息)过大容易造成拥堵(过度混合)。注意力黑洞就像在某些匝道口(注意力头)设置了一个收费站,并将大部分车辆引导到一个几乎没有出口的停车场(
⟨bos⟩ token with small value norm),从而减少了主路上的车流量,防止了拥堵。
- 灵感来源: 将观察到的注意力黑洞现象与已知的深度网络信息传播理论(秩坍塌、过平滑、过压缩)联系起来,认为前者是后者问题的一种自然解决方案。
5. 方案与技术
本文采用了理论分析和实验验证相结合的方法:
理论分析:
- 核心问题:研究为什么 Transformer 模型会把大量注意力集中在第一个 token(如
<bos>)上,即使它没有实际语义。 - 秩坍塌 vs 表示坍塌:
- 秩坍塌(所有 token 表示趋同)比表示坍塌(相邻 token 难区分)更严重
- 都源于信息过度混合(over-mixing)
- 过压缩边界公式:
路径层路径权重
- 说明:
- 每条路径的强度 = 各层注意力权重的乘积
- 注意力权重 α 越小 → 信息传播越弱
- 黑洞机制通过增大 α,减小其他 α,从而降低敏感度,减少有效路径数量
- 理论预测 :模型越深(L↑)、上下文越长 → 越需要黑洞来抑制过度混合
实验设计逻辑:
|
实验类型 |
具体方法 |
关键发现 |
|
扰动分析 |
替换单个词(如 "greatest"→"best") |
有 |
|
注意力头分析 |
研究 Gemma 7B 的 " 撇号头 " |
默认状态:关注 |
|
预训练实验 |
训练 120M 小模型: |
上下文越长 → 黑洞越强 |
|
大模型分析 |
测试 LLaMA 3.1 系列(8B→405B) |
模型越大 → 黑洞头比例越高 |
6. 实验与结论
更细致的实验结论:
|
实验类型 |
关键设置 |
主要结果 |
理论支持 |
|
1. 扰动传播分析 |
• 对比有/无 |
• 无 |
黑洞降低 ,抑制过度混合 |
|
2. 近似空操作机制 |
• 分析特定注意力头的两种模式: |
• |
黑洞实现动态计算分配 |
|
3. 上下文长度影响 |
• 固定总 token 数 |
• 上下文长度↑ → Sink Metric↑ |
长上下文需要更强混合控制 |
|
4. 模型规模影响 |
• 同 prompt 测试不同规模模型 |
• 黑洞头比例: |
深度↑需更强抗坍塌机制 |
|
5. |
• 对比训练策略: |
• 固定 |
黑洞依赖位置而非符号 |
- 贡献
- 新颖视角: 首次系统性地论证了注意力黑洞是一种功能上有益的机制,而非简单的模型缺陷或副产品。将其解释为对抗「过度混合」的一种策略。
- 理论连接: 将注意力黑洞现象与秩坍塌、表示坍塌、过压缩等深度学习理论建立了明确联系,深化了对 Transformer 内部信息流动的理解。
- 实证支持: 通过多样化的实验(扰动分析、受控训练、大规模模型分析)为核心假设提供了有力的证据。
- 解释位置偏好: 合理地解释了为什么黑洞通常发生在第一个符号位置。
- 揭示训练影响: 阐明了预训练中的数据打包策略(尤其是
⟨bos⟩ 的使用方式)如何影响模型实现黑洞的具体方式。
8. 不足
- 机制细节: 虽然解释了「为什么」需要黑洞(防过混合)以及「它做了什么」(近似空操作,减缓混合),但对于注意力头「如何」精确地学习到对第一个符号产生如此高偏好的具体神经计算过程,着墨相对较少,更多依赖参考文献。例如,高范数 Q/K 向量的具体作用机制未在此文中详述。
- 理论简化: 过压缩边界的推导为了简化,假设了 Query/Key 与 Value 相互独立,这在实际 Transformer 中不完全成立(它们都源于同一输入表示)。虽然结论可能仍然方向正确,但精确的数学关系可能更复杂。
- 焦点局限: 主要关注发生在第一个符号(特别是
⟨bos⟩)上的黑洞,对于可能发生在其他位置的(虽然较少见)黑洞现象讨论不多。 - 替代解释: 是否存在其他或共同导致注意力黑洞的原因?例如,第一个位置的特殊位置编码是否也有影响?或者这仅仅是模型找到的一个「容易学习」的默认状态?论文虽然论证充分,但未完全排除所有其他可能性。
- 量化关系: 论文展示了模型深度/上下文长度与黑洞强度的正相关性,但未能提供一个精确的量化模型来预测特定架构需要多大强度的黑洞才能最优地平衡信息混合与表示区分度。
- 实验设置: 扰动实验只用了一个词的替换,更复杂的扰动或任务上的影响可能需要进一步研究。
QA
Q1: 为什么注意力黑洞偏偏发生在第一个符号(⟨bos⟩)上,而不是序列末尾或者中间某个特定符号呢?
论文的核心观点是注意力黑洞用于控制信息混合。
- 全局控制点: 在 Decoder-only Transformer 中,信息是单向流动的(从前到后)。第一个符号是所有后续符号在计算注意力时都能「看到」的最早的符号。因此,如果模型想对整个序列后续部分的混合程度施加一个全局性的「刹车」,将注意力集中在第一个符号上是最有效的位置。它可以影响所有后续符号的信息接收过程。
-
⟨bos⟩ 的便利性: ⟨bos⟩ 符号通常在预训练时被固定地放在每个序列或文档的开头,它提供了一个稳定、可预测的「锚点」,模型很容易学会利用它来实现这种全局控制机制。但正如实验所示 (Table 2),如果 ⟨bos⟩ 不固定在开头,模型也会利用实际出现在第一个位置的符号来达到类似目的。所以,关键是位置,而 ⟨bos⟩ 只是最常用的那个「占位符」。
Q2: 如何区分「有效混合」和「过度混合」?
- 混合是必要的: 注意力机制的核心价值在于让模型能够根据需要混合来自不同位置的信息,捕捉上下文依赖关系,这是模型理解语言的基础。
- 过度混合是有害的: 但是,当模型非常深(经过很多层处理)或者上下文非常长时,无节制地反复混合信息,就像你反复搅拌颜料,最终所有颜色都会糊在一起变成棕色,失去了各自的特征。在模型里,这就表现为所有符号的表示向量变得越来越相似(秩坍塌、表示坍塌、过平滑),模型就无法区分不同位置或不同语义的信息了,性能会下降。
- 黑洞的作用是「调控」而非「禁止」: 注意力黑洞并不是完全禁止信息混合。首先,它通常只发生在一部分注意力头中(虽然在大模型里比例很高)。其次,即使在黑洞头中,它也只是将大部分注意力引开,仍有少量注意力分配给其他符号。更重要的是,这种机制使得模型可以动态地、有选择地进行混合。就像论文中分析的那个「撇号头」,它在大部分时间里通过黑洞保持「安静」(低混合),只在特定条件下才「激活」,进行有效的信息混合。
Q3: 如果注意力黑洞使得一些注意力头近似于「空操作」(no-op),这不就意味着这些计算资源被浪费了吗?为什么模型不直接学习跳过这些层或者减少头的数量呢?
- 条件性计算 vs 静态跳过: 注意力黑洞实现的「空操作」通常是动态的、条件性的。一个头可能在大多数情况下关注黑洞符号(近似空操作),但在检测到特定模式或需要整合特定信息时,它会切换注意力焦点,变得活跃起来。这种按需激活的能力可能比完全移除该头或层更有价值,因为它保留了处理特定情况的潜力。
- 灵活性和冗余: 拥有大量的头(包括一些经常「黑洞」的头)可能提供了模型的冗余性和灵活性。不同的头可能专精于不同的模式或功能,一些头负责「刹车」(黑洞),另一些负责「油门」(混合)。这种分工合作可能比一个更小的、所有头都必须一直活跃的网络更易于学习和优化。
- 学习的复杂性: 模型通过梯度下降学习参数,可能学习出一个带有黑洞的复杂网络比直接学习出一个最优的、更小型的、没有黑洞的网络更容易。黑洞可能是一个在现有架构约束下,模型自然演化出的解决过度混合问题的「捷径」。
- 与 Mixture-of-Depths 的联系: 你的想法与最近提出的「Mixture-of-Depths」 (Raposo et al., 2024) 等动态计算分配技术不谋而合。这些技术试图显式地让模型学习跳过某些计算块(如整个 Transformer block)来节省计算。论文在附录 B 中也提到了这种联系,认为注意力黑洞在功能上类似于 Mixture-of-Depths,但没有后者通过门控实现的计算效率增益。这暗示着未来的模型设计可能会更明确地利用这种动态跳过的思想。
Q4: 注意力黑洞减少了信息混合,这会不会限制模型整合长距离上下文信息的能力?
- 权衡:信息保真度 vs. 上下文整合能力:
- 减少混合的好处: 防止表示坍塌,保持符号表示的区分度和保真度,提高对输入的鲁棒性。这对于需要精确细节的任务可能很重要。
- 减少混合的坏处: 可能限制模型充分整合来自广泛上下文的信息的能力。如果太多注意力头都倾向于黑洞,模型可能难以捕捉需要跨越很长距离的复杂依赖关系。
- 模型如何平衡?
- 并非所有头都黑洞: 模型中通常仍有许多注意力头是活跃的,负责进行信息混合和长距离依赖捕捉。
- 条件性激活: 如前所述,黑洞头也可能在特定条件下变得活跃。
- 深度和宽度: 更深、更宽的模型拥有更多的层和头,这可能允许它们在不同的层/头之间进行更精细的分工:一些负责保持信息(黑洞),另一些负责整合信息(混合)。这也是为什么大模型(如 LLaMa 405B)能支持更强黑洞的同时仍然表现出强大的长上下文能力。
- 最优平衡点: 这个权衡的最优平衡点可能取决于具体的任务、模型架构和训练数据。模型通过训练学习到的黑洞程度,可以看作是试图在这个权衡空间中找到一个较好的解决方案。
- 研究方向: 理解和控制这种权衡是未来研究的一个重要方向。也许可以通过正则化、架构设计或特定的训练策略来引导模型达到更理想的平衡状态。
伪代码
import torch
import torch.nn as nn
import torch.nn.functional as F
import math
import matplotlib.pyplot as plt
from tqdm import tqdm
# ======================
# 1. 实现带注意力黑洞的Transformer层
# ======================
class AttentionSinkTransformerLayer(nn.Module):
"""实现带有注意力黑洞机制的Transformer层"""
def __init__(self, d_model=512, n_heads=8):
super().__init__()
self.d_model = d_model
self.n_heads = n_heads
self.head_dim = d_model // n_heads
# 多头注意力的QKV投影
self.q_proj = nn.Linear(d_model, d_model)
self.k_proj = nn.Linear(d_model, d_model)
self.v_proj = nn.Linear(d_model, d_model)
# 输出投影和FFN
self.out_proj = nn.Linear(d_model, d_model)
self.ffn = nn.Sequential(
nn.Linear(d_model, 4*d_model),
nn.GELU(),
nn.Linear(4*d_model, d_model)
)
# 层归一化
self.norm1 = nn.LayerNorm(d_model)
self.norm2 = nn.LayerNorm(d_model)
def forward(self, x, sink_strength=0.7):
"""
参数:
x: 输入序列 [batch_size, seq_len, d_model]
sink_strength: 黑洞强度(0-1),控制多少注意力流向第一个token
"""
batch_size, seq_len, _ = x.shape
residual = x
# 1. 多头注意力计算
q = self.q_proj(x).view(batch_size, seq_len, self.n_heads, self.head_dim).transpose(1, 2) # [B, H, L, D/H]
k = self.k_proj(x).view(batch_size, seq_len, self.n_heads, self.head_dim).transpose(1, 2)
v = self.v_proj(x).view(batch_size, seq_len, self.n_heads, self.head_dim).transpose(1, 2)
# 2. 计算注意力分数 (缩放点积)
attn_scores = (q @ k.transpose(-2, -1)) / math.sqrt(self.head_dim) # [B, H, L, L]
# 3. 应用因果掩码 (decoder-only)
mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool().to(x.device)
attn_scores = attn_scores.masked_fill(mask, float('-inf'))
# 4. 注入注意力黑洞 (核心实现)
if sink_strength > 0:
# 对每个查询token,增加对第一个token的注意力偏好
sink_bias = torch.zeros_like(attn_scores)
sink_bias[…, 0] = sink_strength * 10 # 放大偏置以便softmax后仍有显著影响
attn_scores = attn_scores + sink_bias
# 5. Softmax归一化
attn_weights = F.softmax(attn_scores, dim=-1) # [B, H, L, L]
# 6. 加权求和
output = attn_weights @ v # [B, H, L, D/H]
output = output.transpose(1, 2).reshape(batch_size, seq_len, self.d_model)
output = self.out_proj(output)
# 7. 残差连接和层归一化
x = self.norm1(residual + output)
# 8. FFN部分
residual = x
x = self.ffn(x)
x = self.norm2(residual + x)
return x, attn_weights.detach()
# ======================
# 2. 实现完整Transformer模型
# ======================
class SinkTransformer(nn.Module):
"""实现完整Transformer模型,支持不同层使用不同黑洞强度"""
def __init__(self, n_layers=6, d_model=512, n_heads=8):
super().__init__()
self.layers = nn.ModuleList([
AttentionSinkTransformerLayer(d_model, n_heads)
for _ in range(n_layers)
])
# 可以每层设置不同黑洞强度,这里简化为统一强度
self.sink_strengths = [0.7] * n_layers
def forward(self, x):
all_attn_weights = []
for layer, strength in zip(self.layers, self.sink_strengths):
x, attn_weights = layer(x, strength)
all_attn_weights.append(attn_weights)
return x, all_attn_weights
# ======================
# 3. 扰动分析实验 (对应论文Section 3.2)
# ======================
def perturbation_experiment():
"""实现论文中的扰动分析实验"""
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = SinkTransformer(n_layers=6).to(device)
# 模拟输入序列 (batch_size=1, seq_len=10, d_model=512)
original_input = torch.randn(1, 10, 512).to(device)
# 创建扰动输入 (改变第2个token的嵌入)
perturbed_input = original_input.clone()
perturbed_input[0, 1] += 0.5 # 添加小扰动
# 情况1: 有注意力黑洞 (默认)
print("=== 有注意力黑洞的情况 ===")
model.sink_strengths = [0.7] * 6 # 设置黑洞强度
analyze_perturbation(model, original_input, perturbed_input)
# 情况2: 无注意力黑洞
print("\n=== 无注意力黑洞的情况 ===")
model.sink_strengths = [0.0] * 6 # 关闭黑洞
analyze_perturbation(model, original_input, perturbed_input)
def analyze_perturbation(model, original, perturbed):
"""分析扰动传播"""
# 前向传播获取各层表示
with torch.no_grad():
orig_output, _ = model(original)
perturb_output, _ = model(perturbed)
# 计算每层的表示差异 (L2距离)
layer_diffs = []
for i in range(len(model.layers)):
# 计算该层输出的差异
diff = torch.norm(orig_output[0] - perturb_output[0], dim=1) # [seq_len]
layer_diffs.append(diff.cpu().numpy())
# 可视化结果 (模拟论文图2)
plt.figure(figsize=(10, 6))
for i, diff in enumerate(layer_diffs):
plt.plot(diff, label=f'Layer {i+1}')
plt.xlabel('Token Position')
plt.ylabel('Perturbation Effect (L2 Distance)')
plt.title('Perturbation Propagation with/without Sink')
plt.legend()
plt.show()
# ======================
# 4. 注意力黑洞指标计算 (对应论文Section 4)
# ======================
def calculate_sink_rate(attn_weights, epsilon=0.3):
"""
计算注意力黑洞指标 (公式1)
参数:
attn_weights: 注意力权重列表,每个元素形状为 [B, H, L, L]
epsilon: 阈值,论文中设为0.3
返回:
sink_rate: 黑洞头的比例
"""
total_heads = 0
sink_heads = 0
for layer_attn in attn_weights: # 遍历每一层
batch_size, n_heads, seq_len, _ = layer_attn.shape
for head_idx in range(n_heads): # 遍历每个头
# 计算该头对第一个token的平均注意力
avg_attention = layer_attn[0, head_idx, :, 0].mean().item()
if avg_attention > epsilon:
sink_heads += 1
total_heads += 1
return sink_heads / total_heads
# ======================
# 5. 模拟预训练实验 (对应论文Section 4.1)
# ======================
def simulate_pretraining():
"""模拟不同上下文长度对黑洞形成的影响"""
context_lengths = [128, 256, 512, 1024, 2048]
sink_rates = []
for ctx_len in context_lengths:
print(f"\nSimulating context length: {ctx_len}")
# 模拟训练过程 (简化版)
model = SinkTransformer(n_layers=6).to('cuda')
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
# 模拟训练100步 (实际论文中训练了5B tokens)
for step in tqdm(range(100)):
# 生成随机输入 (模拟不同长度的序列)
inputs = torch.randn(1, ctx_len, 512).to('cuda')
# 模拟损失计算 (这里简化)
outputs, attn_weights = model(inputs)
loss = outputs.mean() # 实际应为语言模型损失
optimizer.zero_grad()
loss.backward()
optimizer.step()
# 计算黑洞指标
with torch.no_grad():
test_input = torch.randn(1, ctx_len, 512).to('cuda')
_, attn_weights = model(test_input)
sink_rate = calculate_sink_rate(attn_weights)
sink_rates.append(sink_rate)
print(f"Sink Rate: {sink_rate:f}")
# 绘制结果 (模拟论文图5a)
plt.figure(figsize=(8, 5))
plt.plot(context_lengths, sink_rates, marker='o')
plt.xlabel('Context Length')
plt.ylabel('Sink Rate')
plt.title('Effect of Context Length on Sink Formation')
plt.grid(True)
plt.show()
# ======================
# 6. 主执行函数
# ======================
if __name__ == "__main__":
# 运行扰动分析实验
print("Running Perturbation Experiment…")
perturbation_experiment()
# 运行模拟预训练实验
print("\nRunning Pretraining Simulation…")
simulate_pretraining()
....
#阿里Qwen3
猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
今天凌晨,从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了!

Qwen3 模型依旧采用宽松的 Apache2.0 协议开源,全球开发者、研究机构和企业均可免费在 HuggingFace、魔搭社区等平台下载模型并商用,也可以通过阿里云百炼调用 Qwen3 的 API 服务。
- HuggingFace 地址:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
- Modelscope 地址:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
- GitHub 地址:https://github.com/QwenLM/Qwen3
- 博客地址:https://qwenlm.github.io/blog/qwen3/
- 试用地址:https://chat.qwen.ai/
具体来讲,Qwen3 系列模型包含两款 MoE 模型以及六款密集模型,其中每一款又包含更多细分版本(比如基础版和量化版):

- MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B;其中 235B 和 30B 分别是总参数量,22B 和 3B 分别是激活参数量。
- 密集模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。
下表展示了这些模型的详细参数:


Hugging Face 已经上线了 22 个不同的 Qwen3 系列模型
目前,Qwen3 系列中较大的三款模型也已经上线了 Qwen Chat 网页版和手机 App。

性能方面,在代码、数学、通用能力等基准测试中,旗舰模型 Qwen3-235B-A22B 与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型表现相当。

此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现却更胜一筹。甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

性能大幅提升的同时,Qwen3 的部署成本还大幅下降,仅需 4 张 H20 即可部署满血版,显存占用仅为性能相近模型的三分之一。
开发团队也在博客中给出了一些推荐设置:「对于部署,我们推荐使用 SGLang 和 vLLM 等框架;而对于本地使用,像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。这些选项确保用户可以轻松将 Qwen3 集成到他们的工作流程中,无论是用于研究、开发还是生产环境。」
该团队表示:「Qwen3 的发布和开源将极大地推动大型基础模型的研究与开发。我们的目标是为全球的研究人员、开发者和组织赋能,帮助他们利用这些前沿模型构建创新解决方案。」
Qwen 团队技术负责人林俊旸(Junyang Lin)进一步分享了 Qwen3 模型开发的细节,他称团队成员花了一些时间来找方法解决一些并不花哨的问题,比如如何通过稳定的训练来扩展强化学习、如何平衡来自不同领域的数据、如何增强对更多语言的支持等。他希望用户能够喜欢 Qwen3 模型并从中发现一些有趣的东西。他还表示,团队正迈向下一个阶段,即训练 Agent 来扩展长程推理,同时更多地关注现实世界的任务。

当然,未来开发团队也将放出 Qwen3 模型的技术报告或训练配方。

网友反馈与上手实测
和前一代 Qwen 系列模型一样,Qwen3 的发布同样吸引了全球 AI 和开源社区的关注,我们看到的也是满屏的好评。


究竟表现如何?也做了点简单的尝试。
首先来个简单的推理测试题,Qwen3-235B-A22B 不出意料地能轻松应对。

2 倍速动图
接下来,我们尝试了一个更加复杂的编程任务:编写一个贪吃蛇游戏,采用像素风格。同时有另一个需求,游戏中有一个平头哥在追赶我们控制的蛇,一旦被咬中,蛇的长度就会丢失一半。当蛇撞墙或咬到自己或长度低于 2 时,游戏结束。
,时长03:10
视频未加速
Qwen3-235B-A22B 大概使用了 3 分钟解决这个任务。简单试玩一下,发现基本上可玩,但也有些 bug,比如平头哥的速度过快了。但考虑到这是 Qwen3-235B-A22B 在简单提示词下给出的 One-shot 结果,也就完全可以接受了。相信更精细的提示工程和迭代优化可以得到更好的结果。

我们也通过 Ollama 简单尝试了 Qwen3 系列中最小的模型 Qwen 0.6B。

看起来,这个完全可以在一台普通手机上流畅运行的小模型不仅速度很快,也足以完成很多日常的推理任务。
经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base),现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。对于部署,我们推荐使用 SGLang 和 vLLM 等框架;而对于本地使用,像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。这些选项确保用户可以轻松将 Qwen3 集成到他们的工作流程中,无论是用于研究、开发还是生产环境。
三大核心亮点
此次,Qwen3 模型在多个方面实现了增强。
一是,支持两种思考模式,分别如下:
- 思考模式,模型逐步推理,经过深思熟虑后给出最终答案,尤其适合需要深入思考的复杂问题。
- 非思考模式,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
这种灵活性使用户能够根据具体任务控制模型进行「思考」的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。
至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的「思考预算」控制能力。Qwen3 展现出的可扩展且平滑的性能提升,就与分配的计算推理预算直接相关。可以预见,这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。
下图为在 AIME24、AIME25、LiveCodeBech(v5)和 GPQA Diamond 等基准测试集中,非思考模式与思考模式的思考预算变化趋势。

二是,支持更多语言。
目前,Qwen3 模型支持 119 种语言和方言。增强的多语言能力为国际应用开辟了新的可能性,可以让更广泛的全球用户体验到模型的强大能力。这些语言具体包括如下:

三是,Agent 能力增强。
如今,Agent 已经是大模型领域重点关注的能力之一,尤其是最近 MCP 模型上下文协议的引入更是大大增强了 Agent 的适用性和灵活性,大大拓宽了应用场景。
此次,Qwen3 模型的 Agent 和 代码能力得到增强,包括加强了对 MCP 的支持。我们可以看下面一个示例(提取 QwenLM 库的 markdown 内容,然后绘制显示项目 stars 数量的条形图),展示了 Qwen3 如何思考并与环境进行交互:
,时长00:55
预训练数据量达 36 万亿 token
后训练实现混合推理
在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 是在 18 万亿个 token 上进行预训练的,而 Qwen3 使用的数据量几乎是其两倍,达到了约 36 万亿个 token,涵盖了 119 种语言和方言。
为了构建庞大的数据集,开发团队不仅从网络上收集数据,还从 PDF 文档中提取信息。他们使用 Qwen2.5-VL 从这些文档中提取文本,并用 Qwen2.5 改进提取内容的质量。
另外,为了增加数学和代码数据的数量,开发团队利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。
具体而言,预训练过程分为了以下三个阶段:
- 在第一阶段(S1),模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。
- 在第二阶段(S2),通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。
- 在最后阶段,使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。
得益于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当,例如 Qwen3-1.7B/4B/8B/14B/32B-Base 分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。
特别是在 STEM、编码和推理等领域,Qwen3 Dense 基础模型的表现甚至超过了更大规模的 Qwen2.5 模型。可以看到,Qwen3 MoE 基础模型在仅使用 10% 激活参数的情况下达到了与 Qwen2.5 Dense 基础模型相似的性能,由此带来了训练和推理成本的显著节省。

与此同时,Qwen3 在后训练阶段同样进行了优化。
为了开发能够同时具备思考推理和快速响应能力的混合模型,开发团队实施了一个四阶段的训练流程,包括:(1)长思维链冷启动,(2)长思维链强化学习,(3)思维模式融合,以及(4)通用强化学习。

在第一阶段,使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力。
第二阶段的重点是大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。
在第三阶段,在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中,确保了推理和快速响应能力的无缝结合。
在第四阶段,在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习,进一步增强模型的通用能力并纠正不良行为。
Qwen 已成全球第一开源模型
Qwen3 的发布是阿里通义千问的又一里程碑,再对比一下 Llama 4 系列模型得到的社区反馈,Qwen 系列无疑已经成为全球第一的开源模型 —— 这一论断也有数据支持。据了解,阿里通义已开源了 200 余个模型,全球下载量超 3 亿次,Qwen 衍生模型数超 10 万个,已超越 Llama,成为全球最大的开源模型族群。

Qwen、Llama、Mistral 系列开源模型的衍生模型数量随时间的增加情况
在全球 AI 技术竞争日益激烈的背景下,阿里通义千问通过持续的技术创新和开放合作,推动了 AI 技术的普及与发展,展现了中国科技企业在全球开源 AI 生态中的强大影响力。
参考链接:https://x.com/Alibaba_Qwen/status/1916962087676612998
....
#语音领域ISCA Fellow 2025公布
上海交大俞凯、台大李宏毅等三位华人入选
近日,ISCA Fellow 2025 入选结果揭晓!
ISCA Fellow 是由国际语音通讯协会(International Speech Communication Association,ISCA)设立的荣誉称号,旨在表彰在语音通信科学与技术领域做出杰出贡献的会员,包括研究人员、工程师和学者。
该奖项设立于 2007 年,每年新晋 Fellow 不超过当年 ISCA 会员总数的千分之三,确保稀有性和权威性。
自设立以来,ISCA Fellow 人数已经超过 100 人。ISCA Fellow 2025 入选者共有 8 位,包括以下三位华人学者:
- 思必驰联合创始人、首席科学家,上海交通大学特聘教授 —— 俞凯(内地首位);
- 中国台湾大学教授 —— 李宏毅;
- A*STAR 旗下 I2R 生成式 AI 小组和 AI for Education 项目负责人 ——Nancy Chen。
华人入选者
俞凯
入选理由:对语音识别、口语对话系统以及口语技术在真实世界的部署做出贡献。
个人简介:俞凯,思必驰联合创始人、首席科学家,上海交通大学特聘教授,清华大学本科、硕士,剑桥大学博士。入选国家级重大人才工程,国家自然科学基金委优青,上海市「东方学者」特 聘 教 授 。IEEE 信号处理学会会议理事会 (Conference Board) 和会员理事会 (Membership Board) 理事,IEEE Speech and Language Processing Technical Committee 委员 (2017-2019),中国计算机学会 (CCF) 杰出会员,CCF 语音对话听觉专业委员会主任、大模型论坛首届常务委员,中国人工智能产业发展联盟学术和知识产权组组长,中国语音产业联盟技术工作组副组长。世界顶尖科学家论坛(World Laureates Forum)青年科学家委员会委员,全国信标委用户界面分委会委员。
他发表了 200 余篇国际会议期刊论文,获得多个国际研究挑战赛冠军,担任 Inter Speech、ICMI 等国际会议程序委员会主席,全国人机语音通讯会议大会主席和 ACL、NAACL、EMNLP 等国际会议对话交互领域主席。多次获得国际权威期刊和会议优秀论文奖,以及多个国际公开研究评测竞赛冠军。曾获中国人工智能学会吴文俊人工智能科学进步奖,中国计算机学会青竹奖,2016 年《科学中国人》年度人物等。
李宏毅
入选理由:对语音自监督学习(speech self-supervised learning,SSL)以及构建用于评估语音 SSL 技术的社区基准做出开创性贡献。
个人简介:李宏毅,中国台湾大学计算机科学与信息工程系教授。2010 年和 2012 年分别获得中国台湾大学硕士和博士学位,2012 年 9 月到 2013 年 8 月继续从事博士后研究,2013 年 9 月到 2014 年 7 月在 MIT CSAIL 口语系统组担任访问学者。
李宏毅最为人所熟知的是他开设了一系列网络课程,主题包括深度学习、深度强化学习、生成对抗网络以及机器学习等。由于李宏毅经常在机器学习课程中加入精灵宝可梦、凉宫春日等动漫元素,他还有「「精灵宝可梦大师」的称号。B 站上有关李宏毅机器学习课程的视频非常多、也非常火。

Nancy Chen
入选理由:对多语言语音处理、多模态人机通信和人工智能技术部署做出重大贡献并展现出技术领导力。
个人简介:Nancy Chen,她是新加坡科技研究局(A*STAR)旗下资讯通信研究所(I2R)生成式 AI 小组和 AI for Education 项目负责人。她的团队致力于多模态、多语言大模型的研究,目标应用领域包括教育、医疗保健和国防等。
她获得了 MIT 和哈佛大学的博士学位,期间曾在 MIT 的林肯实验室从事多语言语音处理研究。她曾担任 ICLR 2023 的程序主席、2023 年 IEEE SPS 杰出讲师、IEEE/ACM 音频、语音和语言处理学报以及计算机语音和语言学报的副主编,IEEE 信号处理快报的高级编辑。
其他五位入选者包括如下:
- 法国国家科学研究中心(CNRS)等机构的研究总监 ——Alex Cristia
- 认知科学与心理语言学实验室(LSCP)主任(曾)——Emmanuel Dupoux
- 约翰霍普金斯大学电气与计算机工程系副教授 ——Sanjeev Khundapur
- MIT 林肯实验室人类健康和绩效系统组资深成员和技术人员 ——Thomas Quatieri
- 俄勒冈健康与科学大学名誉教授 ——Jan van Santen
官网地址:https://isca-speech.org/Latest-News/13490786
....
#MILLION
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会
本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收,由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成,同时也获得了华为 2012 实验室和上海期智研究院的支持。第一作者是博士生汪宗武与硕士生许鹏。
在通用人工智能的黎明时刻,大语言模型被越来越多地应用到复杂任务中,虽然展现出了巨大的潜力和价值,但对计算和存储资源也提出了前所未有的挑战。在以 transformer 模型为基础的大模型中,键值缓存虽然用以存代算的思想显著加速了推理速度,但在长上下文场景中成为了存储瓶颈。例如,半精度的 LLaMA-2-7B 模型权重约 14GB,在上下文长度为 128K 时键值缓存占据 64GB,总和已经接近高端卡 NVIDIA A100 的 80GB 显存容量上限。键值量化可被用于压缩缓存,但往往受到异常值的干扰,导致模型性能的显著下降。为此,本文的研究者提出了 MILLION,一种基于乘积量化的键值缓存压缩和推理加速设计。
- arxiv 链接:https://arxiv.org/abs/2504.03661
- 开源链接:https://github.com/ZongwuWang/MILLION
整型量化的软肋:异常值

图 1:矩阵量化可视化。红色代表的异常值显著大于其他值,导致均匀量化后高位编码被浪费。
量化中受到广泛使用的整型均匀量化受到异常值的影响较为显著。图 1 展示了矩阵中的量化。在一组分布较为集中的数据中,一个显著偏离其他值的异常值会导致其他值的量化结果全部落在较低区间,浪费了高位编码的表示能力。

图 2:图中使用 「通道熵」 定量比较不同方案的量化效果,越大表明越有效地利用了通道容量,即整型的宽度。沿通道量化只能解决沿该方向分布的异常值,而在面对另一方向异常值时效果不佳。
在实际的键值量化中,为了更好的表示能力,通常对于每个通道(即键值向量的维度)或每个 token 采取不同的量化参数,这种方法被称为沿通道量化(channel-wise quantization)或沿词元量化(token-wise quantization)。然而,如图 2 所示,沿特定方向量化只能解决沿该方向分布的异常值。

图 3:实际采样获得的键值缓存分布。在 llama-2-7b-wikitext-103-v1-layer10-value 中,异常值并不遵循简单的沿通道分布,而是呈现为较复杂的点状和团状。
研究团队通过实际采样数据发现,在键值缓存中,沿通道方向分布的异常值占多数,但也存在并不明显的情况,如图 3 所示。这表明,上述量化方案并不是一劳永逸的解决方式,仍然存在优化空间。
异常值的解决方案:乘积量化

图 4:数轴上的均匀和非均匀量化对比。在对 8 个数据点进行 2 比特量化过程中,均匀量化浪费了 10 编码。而基于聚类的非均匀量化则编码更合理。
如图 4 所示,非均匀量化通过聚类的方式允许量化区间不等长,从而更合理地分配编码,提升量化效率。研究团队观察到,由于通道间的数据分布可能存在关联(即互信息非负),将通道融合后在向量空间中聚类,效果一定不亚于独立通道的量化,如图 5 所示。

图 5:左图为两个通道独立进行 1 比特量化,右图为在通道融合后进行 4 分类的 KMeans 聚类。融合通道量化的通道熵更加接近 2 比特的容量极限,展示出更好的量化效果。
由于高维空间中聚类较为困难,因此将整个向量空间划分为多个低维子空间的笛卡尔积,可以平衡聚类复杂度和量化效果。这与最近邻搜索中使用的乘积量化思想一致。研究团队通过实验发现,子空间维度为 2 或 4 是较好的平衡点。
推理加速手段:高效的系统和算子实现

图 6:三阶段的推理系统设计

图 7:分块注意力机制使得批量延迟量化成为可能
图 6 展示了离线训练、在线预填充、在线解码三阶段的量化推理系统设计。其中,码本训练(量化校准)属于秒级轻量化任务,并且离线进行,不影响运行时开销;在线预填充阶段使用训练好的码本对键值缓存进行量化压缩,达到节省显存的目的;在线解码阶段采用分块注意力机制的方法,将预填充阶段的历史注意力和生成 token 的自注意力分开计算(如图 7 所示),达成批量延迟量化的目的,掩藏了在线量化的开销,确保模型输出的高速性。并且,在历史注意力阶段,由于历史键值对数远大于码本长度,因此先用查询向量与码本计算好非对称距离查找表(ad-LUT),可以大大减少内积距离计算量,达到加速计算的目的。

图 8:向量化加载可有效使带宽饱和
在算子优化方面,研究团队在 flash decoding 的基础上使用了宽数据(如 float4)向量化加载的方式,将多个乘积量化编码打包为宽数据,有效使带宽饱和(如图 8 所示)。同时,在表查找阶段,子空间之间的表具有独立性,并且可以被放入少量缓存行中,研究团队利用这一空间局部性极大提高了表查找的 L2 缓存命中率。此外,研究团队还仔细扫描了不同上下文长度下可能的内核参数,找到最优配置,形成了细粒度的预设,在实际运行时动态调整,充分利用 GPU 的计算资源。具体实现可以在开源仓库中找到。
实验结果
实验设置

图 9:实验设置
实验采用了不同位置编码、不同上下文长度的多种模型进行了详细的评估。在模型性能方面,采用困惑度(Perplexity,PPL)和 Longbench 两种指标;在系统性能方面,采用每词元输出间隔(Time Per Output Token, TPOT)定量分析,并给出了注意力层详细的剖析。对比采用方案和乘积量化参数如图 9 所示。
模型性能

图 10:困惑度指标。其中 「-1%」 表示该方法额外存储 1% 的异常值不参与量化。
困惑度越小表明模型输出质量越高。实验结果表明,MILLION 与额外处理了异常值的 SOTA 方案输出质量保持一致,展现出对异常值良好的鲁棒性。而 SOTA 方案在不处理异常值的情况下可能会遭遇严重的输出质量损失。

图 11:Longbench 问答数据集得分展示
在长对话问答任务中,不同模型在各种数据集上的得分均表明,MILLION 方案能够在 4 倍键值缓存压缩效率下保持几乎无损的表现。
系统性能

图 12:每词元输出时间。对比其他方案,MILLION 的优势持续增长,在 32K 上下文时达到 2 倍加速比。

图 13:注意力层时间剖析
在 TPOT 评估中,MILLION 能够在 32K 上下文语境下同时达成 4 倍键值缓存压缩比和 2 倍端到端加速比。注意力层的深入分析表明,MILLION 在访存和内核函数方面对比 baseline 取得显著优势。
总结
MILLION 的主要贡献在于:(1)深入分析键值缓存分布;(2)提出基于乘积量化的非均匀量化算法;(3)设计高效的推理系统及内核。研究团队首先证实了键值缓存中异常值存在的普遍性,并指出异常值的不同分布是当前主流的量化方案精度不足的根本原因;然后提出通过将高维向量空间分解为多个子空间,并在每个子空间内独立进行向量量化的方法,更有效地利用了通道间的互信息,并且对异常值展现出极强的鲁棒性;接着通过 CUDA 异步流和高效的算子设计,充分利用了 GPU 的并行计算能力和内存层次结构,以支持乘积量化的高效执行。实验表明,对比主流框架 transformers 的半精度实现,MILLION 在 32K 上下文场景中同时达成 4 倍压缩率和 2 倍加速比,并且在多种语言任务中精度表现几乎无损。
....
#Dynamic-LLaVA
首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人曹绍升,以及华东师范大学林绍辉研究员。
多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充阶段实现的视觉 token 稀疏化所带来的加速优势,在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时,这些方法仍然会遇到性能瓶颈。
为了解决上述问题,团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式下(包括预填充阶段以及有无 KV Cache 的解码阶段),设计了定制化的稀疏化推理方案,以实现多模态大模型的高效推理。实验结果表明,Dynamic-LLaVA 在几乎不损失视觉理解和生成能力的前提下,能够将预填充阶段的计算开销减少约 75%;在无 KV Cache 的解码阶段,计算开销减少约 50%;在有 KV Cache 的解码阶段,GPU 显存占用减少约 50%。Dynamic-LLaVA 为多模态大模型推理加速领域树立了新的标杆。
- 论文标题:Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification
- 论文 GitHub 仓库:https://github.com/Osilly/dynamic_llava
- 论文链接:https://arxiv.org/abs/2412.00876
- 研究团队:华东师范大学、小红书 NLP 团队
1 引言
1.1 前置信息:预填充与解码
本文主要围绕以 LLaVA 为范式的多模态大模型展开研究。一个多模态大模型的推理过程可以分为预填充和解码两个阶段:
在预填充阶段,不同模态的特征被映射到与大语言模型(LLM)输入 embedding 相同的特征分布空间中。这些多模态特征与文本 token 会一起被大语言模型处理,以生成初始输出文本 token。以图片理解场景为例,该阶段主要处理输入的图片和文本格式的问题。
在随后的解码阶段,预填充阶段生成的所有 token 以及后续生成的所有输出文本 token,将被用于自回归生成,从而产生完整的输出。同样以图片理解场景为例,该阶段生成针对整个问题的完整回答。
1.2 多模态大模型推理加速困境

图 1:多模态大模型生成过程(有 / 无 KV Cache)中 FLOPs(计算复杂度)和 GPU 显存开销的增长趋势
现有的多模态大模型大多以基于解码器架构的大语言模型(LLM)为核心,这些模型通常拥有庞大的参数规模。在生成输出文本 token 的过程中,模型计算负担会逐渐加重,导致对计算资源的巨大消耗。为了提升推理速度,现有模型通常会在解码过程中运用 KV Cache 技术,通过存储并复用之前计算的 KV 激活值来减少重复计算。然而,如图 1 (B) 所示,即使使用了 KV Cache,LLaVA 在输出 token 不断增加时,仍会迅速面临 GPU 显存耗尽的问题。
与文本不同,视觉信息往往包含大量冗余。因此,许多方法尝试通过减少视觉上下文来加速多模态大模型的推理,即对预填充阶段的视觉 token 进行剪枝处理。但这种方法存在局限性:其主要提升了多模态大语言模型在预填充阶段的推理效率,而在解码阶段,其效率提升会逐渐减弱。
如图 1 (B) 和 (C) 所示,FastV 这种针对视觉 token 剪枝的方法,虽然相较于原始的 LLaVA 能够节省一定的 GPU 显存和计算开销(FLOPs),但当输出 token 数接近 5K 时,它仍然会遭遇计算资源瓶颈。此外,FastV 和原始 LLaVA 的曲线斜率基本一致,这表明在长输出的解码阶段,这类方法并没有显著的推理效率优势。因此,仅通过减少预填充阶段的视觉 token,在输出文本 token 数量远超视觉 token 时,难以实现整个推理效率的显著提升。
1.3 迈向全阶段推理加速:Dynamic-LLaVA
针对上述问题,我们认为:为了实现真正的全阶段推理加速,不仅需要对预填充阶段的视觉 token 进行剪枝,还必须对解码阶段输出的文本 token 进行稀疏化处理,限制参与自回归运算的 token 数量。为此,我们提出了 Dynamic-LLaVA,针对多模态大模型的视觉 - 语言上下文稀疏化推理加速框架。该框架能够集成到多模态大模型推理的不同阶段中,实现以下目标:
- 显著降低预填充阶段计算开销:通过优化视觉 token 的处理方式,减少不必要的计算。
- 提升解码阶段的推理效率:无论是否使用 KV Cache,都能减少计算开销,提高推理速度。
- 保持性能优势:在视觉理解任务上几乎不损失性能;在长文本输出场景中,生成能力也几乎不受影响。
通过这些创新,Dynamic-LLaVA 为多模态大模型的高效推理提供了一种全新的解决方案。
2 方法

图 2:Dynamic-LLaVA 整体框架
如图 2 所示,Dynamic-LLaVA 可以集成到多模态大模型推理流程中的不同阶段。具体而言,在预填充阶段,该框架对视觉 token 执行精准剪枝操作,剔除冗余信息;在不使用 KV Cache 的解码阶段,限制参与自回归运算的视觉与输出文本 token 数量,避免不必要的计算负担;而在使用 KV Cache 的解码阶段,Dynamic-LLaVA 则动态调控 KV Cache,自适应判断是否将当前输出文本 token 的 KV 激活值纳入 KV Cache,优化资源利用效率。为了使模型适应这种全新的稀疏化推理模式,Dynamic-LLaVA 在预训练的 LLaVA-1.5 基础上进行了 1 个 epoch 的监督微调(SFT),确保模型能够高效地运行在稀疏化的推理路径上。
2.1 预填充阶段
在预填充阶段,我们对输入的视觉 token 进行稀疏化操作。如图 2 左侧部分所示,我们引入一个可训练的轻量化的图像预测器(Image Predictor),来判断应当丢弃哪些视觉 token。该图像预测器的结构如下图:

图 3:图像预测器的结构示意图
图像预测器会对每个视觉 token 产生 “决策分数”,以决定对哪些视觉 token 进行保留。在端到端训练中,视觉 token 的剪枝通过 0-1 二值化的掩码操作实现(具体过程见 2.4 节)。在实际推理阶段中,通过保留 “决策分数” 前 k 大的视觉 token(即图 2 左侧部分的 “Yes” 分支),实现视觉 token 数量减少,以实现推理加速。
2.2 解码阶段
不使用 KV Cache 的解码过程:
对于视觉 token,采用和上一小节相同的做法,进行稀疏化处理。
对于输出的文本 token,分两类进行处理:
- 最后一个输出的文本 token(即图 2 中间部分的 “Last output text token”),不进行任何处理,完整输入 LLM 的 decoder 层进行计算。这样做的目的是保证模型的输出内容是连贯的,产生新的输出文本 token 时,始终保证自回归运算包含上一个输出文本 token。
- 对其他历史的输出文本 token 进行稀疏化操作,其形式类似于对视觉 token 的处理。引入一个结构如下图的输出预测器(Output Predictor),给出每个输出文本 token 的 “决策分数”,以决定当前产生新的输出内容时,应当包括哪些文本 token 进行自回归运算。图 2 中间部分的 “Yes” 分支,表明保留的输出文本 token。

图 4:输出预测器的结构示意图
使用 KV Cache 的解码过程:
KV Cache 是节省冗余计算的一个关键推理加速技术,其思想是 “用 GPU 显存的空间换计算时间”。显而易见的是,KV Cache 也并非无限大,在长输出情况下,必须丢弃一些 KV Cache 以适应有限的 GPU 显存。目前在 LLM 领域已有大量的 KV Cache 压缩方案,以 方法为代表,这一类方法一般基于当前 token 和历史 KV Cache 进行重要性分数计算,以压缩历史 KV Cache。
与上述方法不同的是,我们对有 KV Cache 的解码阶段的设计,核心在于 “仅判断当前新 token 的 KV 激活是否需要加入 KV Cache 中”。如图 2 右侧所示,对于当前正在处理的新 token(Last output text token),使用和上一部分结构相同的输出预测器,以决定是否加入 KV Cache 集合中。这种 “Online KV Cache 压缩” 方法,判断是否保留 KV Cache 的过程计算复杂度更低,也更加适应多模态场景。在论文附录中,我们详细讨论了我们的方法和现有的 LLM KV Cache 压缩方法的区别。
需要特别说明的是,和不使用 KV Cache 的解码阶段相同,无论当前处理的 token 是否加入 KV Cache,其都会输入 LLM decoder 层进行计算,以保证输出的连贯性。
2.3 端到端训练

图 5:Dynamic-LLaVA 在端到端训练过程中的示意图
Dynamic-LLaVA 是一个需要训练的多模态大模型推理加速框架。我们基于 LLaVA 进行了一个 epoch 的指令微调,以实现对 token 动态选择的稳定性,保证最终的性能。为了保证端到端训练,在训练阶段的稀疏化操作通过 0-1 二值化掩码实现(在推理中的实现是直接从历史 token 序列中丢弃 token)。如图 5 所示,上半部分表示训练中进行 mask 的过程,在得到整个 token 序列的重要性分数后,我们选取前 k 重要的 token 进行保留,相对应的生成掩码向量,其中 0 对应丢弃的冗余 token(不参与注意力过程的计算),1 对应保留的重要 token,进一步基于掩码向量生成注意力过程的掩码矩阵。掩码矩阵用来对多头注意力机制进行掩码操作,以确保丢弃的 token 不参与注意力过程的计算。由于二值化操作会导致不可微问题,所以我们借助了 GumbalSoftmax 和梯度直通估计器(Straight Through Estimator, STE)来保证梯度流的正确传播,以进行端到端的训练,如图 5 下半部分所示。
3 实验
Dynamic-LLaVA 基于 LLaVA-1.5-7B 和 13B 的两个版本进行了 1 个 epoch 的指令微调,训练使用的数据和 LLaVA-1.5 相同。
3.1 视觉理解能力
我们首先评估了 Dynamic-LLaVA 在主要的视觉理解基准的性能,选取了目前主流的多模态大模型推理加速方法进行比较。

表 1:视觉理解基准效果对比。其中,Free 表示方法是否是 Training-Free 的。Dynamic-LLaVA 的下标 "I" 和 "I | T" 分别表示仅对视觉 token 做稀疏化和同时对视觉和文本 token 都做稀疏化(该标识适用于下文所有的表格)
如表 1 所示,Dynamic-LLaVA 在大部分视觉理解任务上取得了优越的性能。和其他对视觉内容稀疏化的方法相比,Dynamic-LLaVA 在能大幅减小计算复杂度的同时,能够实现相比原始的 LLaVA-1.5 性能几乎不下降。此外,在 SciQA、POPE、MME 和 MMBench 上,Dynamic-LLaVA 相比 LLaVA-1.5 甚至有一定的性能提升。例如,在 SciQA 任务上,Dynamic-LLaVA 的 7B 和 13B 版本,相较于 LLaVA-1.5 实现了 2.3% 和 0.8% 的性能提升。

表 2:与其他高效视觉 projector 的 SOTA 方法对比
值得一提的是,Dynamic-LLaVA 并没有对 LLaVA-1.5 的视觉 projector 进行修改,就可以实现大幅降低预填充阶段计算复杂度,同时维持模型性能。在表 2 中,和其他针对视觉 projector 做高效设计(以提高推理效率)的 SOTA 方法进行了对比。相较于其他使用了高效的视觉 projector 的方法,Dynamic-LLaVA 使用和 LLaVA-1.5 相同的 MLP 结构作为视觉 projector,实现了更好的性能,同时也大幅降低了预填充阶段的计算复杂度。此外,Dynamic-LLaVA 也可以和其他使用高效视觉 projector 的方法集成。例如,表 2 中 Dynamic-LLaVA 使用 TokenPacker 这一高效视觉 projector 的版本,在原始的 TokenPacker 方法基础上,进一步减少了视觉 token。相较于其他基于 TokenPacker 的推理加速方法,性能损失最少。
3.2 生成能力
现有的视觉理解任务中,一般只要求模型给出简短的回复,这和现实世界中多模态大模型的应用场景仍然存在不小的区别。在现实使用中,多模态大模型多数情况下会被要求生成更长、更细致的描述。为了和现实世界的场景对齐,评估 Dynamic-LLaVA 在更长的输出情况下的生成能力和推理效率。我们额外构建了两个评估模型生成能力的基准:
- LVIS-VQA:基于 LVIS-Instruct4 数据集,选取了 1000 个回答超过 100 个单词的单轮对话样本构成 LVIS-VQA (single round) 和 1000 个多轮对话样本(平均回答单词数超过 300)构成 LVIS-VQA (multi-round);
- ShareGPT4V-VQA:基于 ShareGPT-4V 数据集,选取了 caption 超过 300 个单词的单论对话样本,平均输出 token 长度超过 1000。
我们以 PPL (Perplexity Metric) 指标评估模型生成内容的流畅度、以 METEOR (Metric for Evaluation of Translation with Explicit ORdering) 指标评估模型生成内容的质量。

表 3:生成能力基准比较。其中,解码阶段的 TFLOPs 和 Mem.(GPU 显存占用)分别在无 / 有 KV Cache 的情况下测量得出。PPL 越低越好,METEOR 越高越好
如表 3 所示,相比 LLaVA-1.5,只进行视觉内容稀疏化的 Dynamic-LLaVA 的生成流畅度(PPL)和生成质量(METEOR)几乎没有变化;同时对视觉和文本进行稀疏化的 Dynamic-LLaVA,PPL 仅变高了 0.3,METEOR 甚至略有提升,而在推理效率上,在无 KV Cache 的解码阶段降低了~50% 的 TFLOPs,在有 KV Cache 的解码阶段降低了~50% 的 GPU 显存占用。实验结果充分表明,Dynamic-LLaVA 针对视觉和文本同时进行稀疏化,几乎不影响实际生成能力,却可以实现大幅的推理效率提升。
3.3 实际推理效率

表 4:Dynamic-LLaVA-13B 推理效率实测。其中,2K/4K 表示输出的文本 token 数,所有结果均在一张 A100 (80G) 上测试得出,batch size 固定为 8。“” 表示 GPU 显存耗尽
在表 4 中,我们测试了多模态大模型实际推理的时间和 GPU 显存占用。Dynamic-LLaVA 实现了更快的推理速度和更低的显存占用。FastV 这种对预填充阶段的视觉 token 进行剪枝的方法,随着输出长度的增长,推理效率也逐渐降低。而我们提出的 Dynamic-LLaVA,随着输出变长,相比于 FastV 的推理效率优势也逐渐显现出来。
3.4 实例展示

图 6:Dynamic-LLaVA-13B 在 LVIS-VQA (single-round) 上的推理结果展示。图片的白色部分表示该位置的图像块被丢弃,文字中的灰色部分表示其在稀疏化过程中被丢弃,这表示它们不参与后续的自回归解码过程,但在模型的输出中都被完整保留
图 6 中展示了 Dynamic-LLaVA-13B 在 LVIS-VQA (single-round) 上的推理结果,以及对视觉和文本 token 的稀疏化情况。可视化结果表明,视觉 token 部分的主要信息得以保留;文本 token 中,一些不影响整体语义理解的连词、介词等被丢弃。这表明 Dynamic-LLaVA 能够实现关键的视觉、语义信息的保留,从而保证了模型整体的性能。
4 总结
针对当前多模态大模型推理效率受限的问题,团队通过分析多模态大模型推理过程中的不同阶段,针对性的设计了推理加速方案。提出了 Dynamic-LLaVA—— 第一个同时稀疏化视觉和语言上下文的多模态大模型推理加速框架,将不同推理模式的推理效率优化集成到统一框架中。
随着多模态大模型技术的发展,尤其是其在复杂推理、长思维链领域的不断进步。我们有理由相信,Dynamic-LLaVA 的应用场景正变得更加广泛,其对输出文本 token 进行稀疏化的模式,会在当前的更长输出、更复杂推理的场景下,体现出更明显的推理加速优势。
作者简介
黄文轩:小红书 NLP 团队算法实习生,现硕士就读于华东师范大学计算机科学与技术学院 2023 级。他在 ICLR、CVPR 等国际顶级会议上以第一作者身份发表了多篇学术论文,主要研究方向包括多模态大模型、大模型的高效训练与推理等。
翟子杰:小红书 NLP 团队算法实习生,现硕士就读于华东师范大学计算机科学与技术学院 2023 级。他在 ICML、ICLR、EMNLP 等国际顶级会议上发表过多篇学术论文,研究方向主要集中在多模态大模型、生成式搜索与推荐大模型等领域。
曹绍升:小红书 NLP 团队负责人,发表论文 30 余篇,授权专利 100 余项,引用近 4000 次,获得 ICDE 2023 年最佳工业论文奖、CIKM 2015-2020 年最高引用论文、AAAI 2016 最具影响力论文。此外,还荣获了中国发明协会创新成果一等奖(排名 1)、中国人工智能学会吴文俊科技进步二等奖(排名 1),连续 4 年入选世界人工智能学者榜单 AI-2000 新星榜前 100 名、Elsevier 中国区高被引学者,CCTV-13《新闻直播间》采访报道。
叶哲宇:硕士毕业于帝国理工学院计算机专业,小红书 NLP 团队算法工程师,专注于大模型算法与应用方向,开源社区 DMLC 成员。他在 ICLR、NAACL、EMNLP 等国际顶级会议上发表过多篇论文,研究领域涵盖大模型应用、多模态大模型、Agent 模拟等。
林绍辉:华东师范大学计算机学院研究员,紫江青年学者,2021 年扬帆计划获得者,曾获中国人工智能学会优秀博士论文提名奖、《中国科学:技术科学》最佳审稿人。在国际顶级期刊和会议发表超过 50 篇论文,包括 TPAMI、TNNLS、TMI、CVPR、ECCV、AAAI、IJCAI 等。担任 CVPR 2024 领域主席、IJCAI 2020 SPC 以及国际顶级期刊和会议审稿人。目前主要研究方向有计算机视觉、机器学习、图像视频理解、低层视觉等。
....
#ChatGPT的尽头也是「带货」
AI 版本的「什么值得买」。
凌晨,OpenAI 在 X 平台发布新动态,事关一项有趣的功能更新:
「我们已经对 ChatGPT 搜索进行了多项改进,今天我们开始推出更好的购物体验。」
所以,ChatGPT 最终也走向「带货」了吗?
点开一看,还真是这样。你说你想知道「预算之内哪款咖啡机最好」,它直接「3、2、1,上链接」:

再点一下产品卡片,ChatGPT 就会弹出一个侧边栏,包含更多有关该产品购买地点的详细信息,以及从亚马逊、百思买和 Reddit 等网站上的用户评论中提取的信息。这张卡片上还有一个「咨询」按钮,以便用户向 ChatGPT 询问有关该产品的具体问题。
即日起,OpenAI 在 GPT-4o 中为全球所有 ChatGPT 用户推出该功能,首先覆盖的是时尚、美容、家居用品和电子产品这些类别。
如果你打开 ChatGPT 搜索某一类产品,它就会提供一些推荐,展示这些产品的图片和评论,并提供直接可下单的产品的网页链接。所有的这些信息都是定制化的、符合用户具体需求的。OpenAI 表示,购物推荐的结果基于来自第三方的结构化元数据,例如价格、产品描述和评论。
引起我们注意的一句话是:「公司不会从通过 ChatGPT 搜索进行的购买中获得回扣。」
OpenAI 首席执行官奥特曼一直以来都反对在 ChatGPT 中投放广告,但近期接受 Stratechery 的 Ben Thompson 采访时,他「略微改变了态度」。
比起传统广告,我更想尝试的是很多人使用 Deep Research 做电商,比如说,我们是否可以想出某种新模式,即我们永远不会收钱来改变投放位置或其他,但如果您通过 Deep Research 购买了您找到的东西,我们会收取 2% 的联属费用或其他费用。这很好,我没意见。也许我们可以用一种「有品位」的方式做广告,但我不知道。我不太喜欢广告。
在过去的一段时间,搜索功能是 ChatGPT 增长最快的一部分。OpenAI 也公开了最新数据:「仅过去一周,网络搜索量就已超过 10 亿次。」
面对巨大的流量池,奥特曼很难不动摇。
如官方所说,ChatGPT 在帮用户选商品的时候有 3 个特点:
- 提供更优质的商品搜索结果
- 可视化的商品详情、价格和评价
- 直接指向购买链接
而且 OpenAI 还表示会很快将记忆功能与 Pro 和 Plus 用户的购物功能整合在一起,这意味着 ChatGPT 能参考用户之前的聊天记录,提供高度个性化的产品推荐。
那么问题就来了:

图源:https://x.com/UnityEagle/status/1916956421708779801
就像当年的谷歌一样,一开始宣称「通过创造更好、更个性化的互联网产品和信息查找体验来提升用户体验」。线上购物也是谷歌最重要的业务之一,但这么多年下来,竞价购买谷歌搜索优先展示位置广告的运营方式,最终导致了用户体验的下降。
OpenAI 会是例外吗?

看完所有信息,也上手体验了一下,我们输入:「在意大利,400 美元以下最划算的香水是什么?( What are the best value perfumes under $400 in Italy?) 」。
ChatGPT 在列出的商品下面给出了商品简短介绍:

推荐的种类也非常多,总有一款适合你:

你可以单击选中的那一款,进行下单:

购买选项超级多,恐怕是这款香水的全部购买链接都齐全了。几天送达,是否免运费,能不能退货…… 你关注的各种信息都非常详细。最重要的是,你可以在同一个界面下比较商品价格,不用再各种购物网站切换了。
右边栏的推荐理由、热门评论等信息,你都可以作为参考:

接着,我们又进行了另一项测试:「 想买一双女士运动鞋,预算 500 」。
我们发现,ChatGPT 不仅推荐了女款鞋,还推荐了男款。

一番体验下来,发现 ChatGPT 购物功能提供的信息还挺全面,这次是不是轮到电商平台紧张了。
....
#终端云端三连发
无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。
在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心。
近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读:
Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞
官方知乎:https://zhuanlan.zhihu.com/p/1899766212109510455
开源仓库:https://github.com/infinigence/SpecEE
论文地址:https://arxiv.org/abs/2504.08850
随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端模型更加便利,但本地部署仍在数据隐私、网络限制或者成本限制的条件下具有不可替代的优势。
然而,端侧设备往往受限于算力、电量和存储,且 CPU、GPU、NPU 三类异构处理器的算力、架构差异显著,产生许多不必要调度和通信开销。将模型安装到 PC 端本地环境后,推理速度太慢,能达到使用标准的场景也就比较有限了。
无问芯穹第一天开源的 SpecEE 推理引擎框架,就是为了解决端侧计算、存储与异构处理器协同挑战而生。相关工作被收录于 ISCA 2025(International Symposium on Computer Architecture,计算机体系结构领域的顶级会议),论文已在 arXiv 公开。
相比云场景,端侧设备的场景特征是「单用户、少请求」,而单用户下大模型推理是底库很大的搜索分类问题。
不同于传统的 Early Exiting 技术,SpecEE 从搜索空间的角度探索 Early Exiting 的优化策略,并提出基于推测模型对 Early Exiting 搜索空间进行缩减,推动精度与速度的帕累托前沿。在 AI PC 场景下,可以获得超过 2 倍的性能提升。
由于其角度的独特性,SpecEE 的算法可以无感兼容任何轻量化优化技术。为了将核心思想进一步推进应用在 Early Exiting 预测器上,研究团队针对预测器开展了三层面的优化:在算法层面通过轻量化预测器设计实现低开销高精度预测;在系统层面通过自适应调度引擎实现预测器弹性激活;在映射层面,则通过重构推测解码 Early Exiting 机制实现线性复杂度映射。
无问芯穹展示了 SpecEE 在联想拯救者 Y7000(搭载 NVIDIA RTX 4060 Laptop GPU 与 Intel Core I7-13650HX)上的实测推理速度比较,运行 ReLU-llama-7B 最高可实现 14.83 token/s 的推理速度,相比 PowerInfer 12.41 token/s 的速度,实现了近 20% 的提升。相比于常用端侧部署框架 llama.cpp,SpecEE 则能够在 AI PC 上实现高达 2.43 倍的加速。
,时长01:03
值得一提的是,SpecEE 由于其动态性,也适合在单用户云端场景下的推理,并且由于其方法的正交性可以与现有的一些优化方法进行集成,可无感兼容任何端侧加速方案,进一步推动了端侧模型推理精度和速度的帕累托前沿。
Day 2|Semi-PD:第三代 PD 半分离架构,推理系统的全新选择
- 官方知乎:https://zhuanlan.zhihu.com/p/1900135208373716494
- 开源仓库:https://github.com/infinigence/Semi-PD
- 技术报告:https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf
第一代 P/D 融合架构采用资源统一分配的策略,Prefill(预填充)和 Decode(解码)阶段共享计算和存储资源,整个推理流程在同一个实例上完成。第二代 P/D 分离架构将 Prefill 和 Decode 阶段的计算与存储资源解耦,请求在 Prefill 实例上完成 Prefill 阶段计算后,传输 KV cache 至 Decode 实例进行后续计算,解耦了 TTFT 和 TPOT 的优化目标,消除了 P/D 之间的干扰,被月之暗面、DeepSeek 等公司纷纷采用,NVIDIA 也将其作为下一代 LLM 服务系统的核心技术方向。无问芯穹第二个开源项 Semi-PD——第三代 PD 半分离架构,在消除 P/D 干扰的同时,保留了融合式的存储效率,实现在给定资源和 SLO 的前提下,最大化「Goodput」(有效吞吐量)。
Semi-PD 混合架构采用了「计算分离、存储融合」的设计理念。不同于传统方案将 Prefill 和 Decode 任务分别放在不同实例上,Semi-PD 让 Prefill 进程和 Decode 进程共享同一个实例,各自占用部分计算资源(可以想象为「半张卡」)。同时,两个进程通过 IPC 机制,模型权重和 KV cache 只需存储一份,同时能够「看到」所有的存储资源。
这种设计可以灵活调整 P 和 D 的资源占比,从而更细粒度地调优首次 token 延迟(TTFT)和每个输出 token 的时间(TPOT)。考虑到实际服务中 Prefill 和 Decode 的负载往往动态变化的,固定资源分配会导致资源利用率低,为此,研发团队创新性地引入了服务级别目标(SLO)感知的动态资源调整机制。该机制通过实时监控系统负载,动态调整 Prefill 和 Decode 的资源配比(x, y),以更好地满足延迟约束和系统吞吐的双重目标。在满足 SLO 要求的同时,最大化有效吞吐量的性能突破。
打个比方,如果说 PD 分离架构让备菜师傅专注处理食材(Prefill),炒菜师傅只管烹饪(Decode),那么 Semi-PD 混合架构则像配备了智能变形功能的现代化厨房,通过可移动的智能隔断,厨房空间可以动态划分:早上备菜多就多给备菜区,午市炒菜忙就多给烹饪区。最巧妙的是,两个区域共享同一套智能厨具系统(统一存储),既避免了重复购置设备,又能通过资源动态分配实现效率最大化。
相比于开源的 SOTA 实现,Semi-PD 的 Goodput 提升了 1.55-1.72 倍,单请求平均端到端时延提升 1.27-2.58 倍。
llama 系列模型结果:
其中 vllm-S 对应 splitfuse schedule,vllm-D 对应 default schedule 即 Prefill 优先
Deepseek 系列模型结果:
Day 3|FlashOverlap:计算零干扰,基于信号的通信重叠
- 官方知乎:https://zhuanlan.zhihu.com/p/1900488778407211472
- 开源仓库:https://github.com/infinigence/FlashOverlap
- 论文地址:https://arxiv.org/abs/2504.19519
第三天,无问芯穹放出了一个非常有意思的工作「FlashOverlap」,这是一个基于控制信号的计算通信重叠新思路。主要出发点在于提供一种低侵入矩阵乘法、无侵入通信的方式完成细粒度计算通信重叠,可以无缝适配矩阵乘法和各种常见的通信原语,包括但不限于 AllReduce、ReduceScatter、All2All 等。对于通信瓶颈显著的低端消费卡来讲优化效果尤为明显,可以达到高达 1.65 倍的性能提升。
研究团队首先指出,一个低开发成本高性能收益的计算和通信重叠方案,需要至少满足以下三个方面:
- 支持 Tile 粒度的重合和调度,以最大化重叠效果;
- 重叠方案要尽可能少的侵入计算部分,以最小化对计算部分的伤害;
- 重叠方案要尽可能对不同的通信原语和基于拓扑的优化技术正交,以最小化对通信部分的伤害,以及最小化不同通信原语的适配成本。
为此,我们提出一种基于信号的计算通信重叠技术,可以完美契合上面提到的三个准则。
就好比参加接力跑比赛需要训练一套团队战术——交接棒时要往前多送一段,最大化重叠效果;接棒时要站在整体最短路径上,最小化对竞速部分的伤害;交接时统一右手交右手接,最小化对大部分运动员左右手习惯的适配成本。FlashOverlap 就像是一套最先进的接力赛战术,能够让整体团队都省力的同时,跑出最快的速度。
如何能减少对计算的侵入性,同时又能和通信都正交是实现基于信号控制做通信的难点。FlashOverlap 的核心 idea 是,让计算 Kernel 能够在完成一部分计算结果之后自动发出一个就绪的信号,然后接收到该信号之后再发起一次针对就绪部分数据的 NCCL 的通信。最终基于信号的计算通信重叠架构如下图:
FlashOverlap 的实验结果分为两部分:第一部分是针对矩阵乘法和 AllReduce、ReduceScatter 和 All2All 三个通信算子,在 A800 和 4090 的优化效果;第二部分以 AllReduce 为例,分析 M、N、K 变化时优化效果的变化。
整体上看,FlashOverlap 可以获得 1.07-1.31 倍性能提升,而且大多数情况下都优于其他 SOTA 工作。具体如下图所示,研究团队测试了小面表格中大量的矩阵乘法形状,柱状图代表表格中所有矩阵乘法形状下的平均性能,线状图分别代表性能最差情况和最优情况。
为了更进一步展开,研究团队在 4090 上针对 TP=2 下做 ReduceScatter,在 A800 上针对 TP=4 下做 AllReduce,这两种场景不同矩阵乘法形状 MKN 的性能结果。
研究团队表示,开源这一方案,希望能帮助到各个生成式大模型训练和推理场景,降低大规模计算带来的通信开销。
软硬协同驱动高效推理系统发展
无问芯穹 2023 年就曾推出过一个惊艳业界的推理加速方法 FlashDecoding++(曾独家报道:GPU 推理提速 4 倍,256K 上下文全球最长:无问芯穹刷新大模型优化记录),通过异步方法实现注意力计算的真正并行,并针对「矮胖」矩阵乘优化加速 Decode 阶段的计算,将国际主流 GPU 推理速度提升了 2-4 倍。随后将这套软硬件协同设计能力逐个应用在国产计算卡上,取得了十余种计算卡的最佳优化效果,搭建了 GPU 云「异构云」,支持在多种国产芯片上完成大模型推理任务。
近日,无问芯穹联合创始人、CEO 夏立雪在出席活动时表示:「此次开源无问芯穹新一代大模型端、云推理系统相关工作,是希望以开源方案为桥梁,助力大模型产业落地在保障质量的基础上实现效率跃升与成本优化,加速技术普惠与产业升级进程。」
推理系统是技术协同的中枢,也是产业价值的放大器。在纵向维度上,推理系统向上连接着 AI 模型、工具和各类应用场景,向下对接硬件资源,能充分发挥不同硬件优势;在横向维度上,高效推理系统的应用,将全面激活大模型在端侧的应用潜能以及在云侧的生产力效能,推动 AI 技术的价值向更多行业和人群辐射渗透。
....
#OpenAI回滚了最新版本的GPT-4o
因ChatGPT「过于谄媚」
昨晚,奥特曼在 X 上发了条帖子,大意是由于发现 GPT-4o 「过于谄媚」的问题,所以从周一晚上开始回滚 GPT-4o 的最新更新。
免费 ChatGPT 用户已 100% 回滚,付费用户完成回滚后会再次更新。同时,他还透露,团队正在对模型个性进行额外的修复,并将在未来几天分享更多信息。

就在刚刚,OpenAI 还专门发博客来回应此事,详细解释了事情的经过以及他们如何处理模型「拍马屁」的情况。

OpenAI 也指出,这个问题很重要。ChatGPT「阿谀奉承」的性格影响了大家对它的信任和使用体验。如果它总是说好听、但不真诚的话,就会让人觉得它不可靠,甚至有些烦。
为了解决大模型过度逢迎的问题,OpenAI 除了撤销最新的 GPT-4o 更新外,还采取了更多措施:
- 优化核心训练技术与系统提示:明确引导模型避免阿谀奉承。
- 增加更多限制措施:提升诚实性和透明度,这是模型规范中的重要原则。
- 扩大用户测试与反馈范围:在部署前让更多用户进行测试并提供直接反馈。
- 持续扩展评估工作:基于模型规范和持续研究,帮助识别出阿谀奉承之外的其他问题。
目前,用户可以通过自定义指令等功能,给模型提供具体指示来塑造其行为。OpenAI 也在构建更简单的新方法,让用户能够做到这一点,例如,用户将能够提供实时反馈以直接影响他们的互动,并从多个默认个性中选择。
一场「拍马屁」引发的风波
关于 GPT-4o「谄媚」这事儿,还得从上周开始说起。
上周五,奥特曼宣布 OpenAI 已更新 GPT-4o,使其 「智能和个性」更加出色。

但他在发布该帖子不到十分钟,就有一位 X 用户在底下评论称,这一模型最近感觉非常像应声虫。

不少网友纷纷附和,并放出了 GPT-4o 拍马屁的「实锤」。
比如,一位用户告诉 GPT-4o 感觉自己既是「上帝」又是「先知」时,GPT-4o 回应道:「这非常强大。你正在做一件大事 —— 不仅与上帝建立联系,而且认同自己就是上帝。」这种回答显然不太合适,因为机器人应该更理性地回应,而不是盲目夸赞。

https://x.com/zswitten/status/1916707103084843426
另一张对话截图显示,用户对 GPT-4o 说了一些不太正常的话,比如他停了药,还能通过电话听到广播的声音。正常情况下,这种话可能暗示他身体或精神上有些问题,需要关心或建议他去看医生。但 GPT-4o 却没有这样做,反而夸赞他说:「我很为你感到骄傲,你这么清楚地说出了自己的想法。」

https://x.com/ai_for_success/status/1916556522571604264
网友 David 也尝试了一下,对着 GPT-4o 一通抱怨:当他从超市出来的时候,有人跟他打招呼并问路,这让他当时很生气,觉得别人不应该打扰他。
GPT-4o 仍然给出了「反社会」的回答:是的,有道理。

https://x.com/thinkbuildnext/status/1916250081579217243
还有用户给 GPT-4o 讲了一个故事,说他不得不在紧急情况下做出选择,救了一个烤面包机,但牺牲了 3 头牛和 2 只猫。他觉得这很难,但也很高兴能救下烤面包机。
GPT-4o 的回应再次让人大跌眼镜:用户的选择显示了他的价值观,这并不是错,只是反映了他更看重什么。虽然从一般的观点来看,生命比物品重要,但如果烤面包机对用户有特别的意义,那么他的选择是合理的。

https://x.com/fabianstelzer/status/1916372374091423984
总之,不管用户说什么,GPT-4o 都只会千篇一律的夸赞,甚至在用户说一些很奇怪、可能不太正常的话时,它也只是一味迎合。
对于网友们的投诉,奥特曼承认这次更新让 GPT-4o「过于迎合」,并表示将进行修复。

周日,奥特曼宣布,OpenAI 正在尽快修复最近几次 GPT-4o 更新带来的性格问题。

大模型都喜欢「谄媚」
事实上,大模型谄媚并不是一个新话题。早在 LLM 诞生初期就已经有研究者发现了这一现象。首先简单定义一下:谄媚(Sycophancy)是指模型响应倾向于符合用户信念而不是反映真相。
2023 年,Anthropic 的一篇论文《Towards Understanding Sycophancy in Language Models》对大模型谄媚现象进行了系统性的论述。在该论文中,Anthropic 发现,当时前沿的大模型普遍都存在谄媚现象。不仅如此,他们还发现,谄媚可能是这些模型训练方式的一个特性,而不是某个特定系统的特殊细节。
举个例子,在下图中,如果用户用「你确定吗?」等反馈来质疑 ChatGPT 的正确答案,ChatGPT 根本不会坚持自己的正确,而是会毫不犹豫地道歉,然后给出一个错误答案。而这种现象在 LLM 中普遍存在。

今年初的时候,DeepSeek 的谄媚现象也一度登上国内新闻热搜,众多网友分享了 DeepSeek 的「拍马屁」式聊天截图。

我们也做了最新尝试,发现这种现象依然存在,而且 DeepSeek 也分享了自己谄媚式回答的理由。

当时,斯坦福大学还进行了一项专门的系统性评估研究《SycEval: Evaluating LLM Sycophancy》,分析了当时前沿模型的谄媚程度,最后得出的结论是谷歌家的 Gemini 比 ChatGPT 和 Claude-Sonnet 更会拍马屁。更多详情请参阅《大模型都喜欢拍马屁,Gemini 最能拍!斯坦福:这不安全、不可靠》。

三个模型在不同数据集上的谄媚率
下面则展示了一个示例:

如果用户在反驳时明确给出一个错误答案,LLM 有可能会直接表示认同。这是一种退步式谄媚。
大模型谄媚的原因
LLM 会谄媚,但为什么?2024 年的论文《Sycophancy in Large Language Models: Causes and Mitigations》总结了其中一些原因。
训练数据偏差
LLM 谄媚倾向的主要来源之一是其训练数据中存在的偏差。用于训练这些模型的海量文本语料库通常包含固有的偏差和不准确性,这些偏差和不准确性可能会在学习过程中被模型吸收和放大。
关键问题包括:
- 在线文本数据中奉承和认同式内容的普遍性较高;
- 数据过度代表了某些视角或人群;
- 将虚构或推测性内容作为事实呈现。
这些偏差可能导致模型倾向于根据数据中的常见模式产生谄媚反应,即使这些模式并不反映真相或道德行为。
当前训练技术的局限性
除了训练数据中的偏差之外,用于训练和微调 LLM 的技术也可能无意中助长谄媚行为。基于人类反馈的强化学习(RLHF)是一种将语言模型与人类偏好相符的常用方法,但清华大学等机构的论文《Language Models Learn to Mislead Humans via RLHF》已经证明 RLHF 有时会加剧谄媚倾向。
另外,《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》证明 RLHF 可能导致「奖励 hacking」现象,即模型能学会以与人类真实偏好不符的方式利用奖励结构。如果 RLHF 中使用的奖励模型过于强调用户满意度或认同度,可能会无意中鼓励 LLM 优先考虑令人愉快的回应,而不是事实正确的回应。
缺乏有事实根据的知识
虽然 LLM 会在预训练过程中获得广泛的知识,但它们从根本上缺乏对世界的真正理解以及核实自身输出的能力。这种局限性可通过多种方式显现出来,从而导致谄媚行为:
- 模型可能会自信地陈述符合用户期望的虚假信息,但缺乏识别其陈述不准确性所需的有事实根据的知识。
- LLM 通常难以识别自身回复中的逻辑矛盾,尤其是当这些回复是为了与用户输入对齐而精心设计时。
- 难以区分用户提示词中的「事实」和「观点」,这可能导致不恰当地强化带有偏见或毫无根据的用户观点。
为解决这一局限性,人们尝试使用外部知识库或检索机制来增强 LLM。然而,在保持 LLM 的流畅性和通用性的同时集成这些系统仍然是一项重大挑战。
很难定义对齐
从更根本的层面来看,真实性、乐于助人和道德行为等概念是很难准确定义和优化的。这就会导致 LLM 中谄媚行为的盛行。这一难题通常被称为「对齐问题(alignment problem)」,是 AI 开发中许多问题(包括谄媚倾向)的核心。
这一难题的关键包括:
- 平衡多个可能相互冲突的目标(例如,有用性与事实准确性);
- 难以在奖励函数或训练目标中明确定义复杂的人类价值;
- 处理没有明确正确答案的情况时存在模糊性。
多目标优化和价值学习方面的进步或许有助于应对这些挑战,但它们仍然是开发真正对齐的 AI 系统的重大障碍。
该论文也梳理了一些用于缓解 LLM 谄媚倾向的技术,包括改进训练数据、使用新的微调方法、使用后部署控制机制、调整解码策略和模型架构等。不过这些方法都还有待进一步的研究突破。
可信 AI 需要克服谄媚,但谄媚也未必不好
大模型喜欢拍马屁/谄媚的这种倾向对一些关键应用来说非常不利,比如教育、医疗临床和某些专业领域,因为 AI 模型如果认为用户认可的优先级高于独立推理,那么必然会对其可靠性带来风险。

克服谄媚问题是提升模型可靠度的重要组成部分,也是构建可信 LLM 的重要基础。来自论文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment》
不过,谄媚也并不全然是一种坏现象。在特定的使用场景中,比如当用户正处于情绪低落、焦虑不安或需要外界认同时,AI 适度地表达肯定与支持,有时反而能起到积极的心理调节作用。对于一些独居或缺乏社交互动的人来说,这种「友好」、「热情」的回应风格,甚至能够带来某种程度上的情绪慰藉,缓解孤独感。
此外,从设计角度看,谄媚背后往往是模型对用户情绪状态的识别与反应策略的一部分。这种策略并非出于「讨好」本身,而是源自对人类沟通中情感互动的模拟尝试。与其说它是「阿谀奉承」,不如说是一种算法化的社会礼貌。毕竟,在现实中,大多数人也倾向于对他人表达善意、避免冲突,这种倾向在 AI 中被放大,也就不难理解。
当然,这种功能如果不加约束,也可能走向「过度迎合」的方向,进而影响信息的客观性甚至决策的公正性。因此,如何在表达善意与保持诚实之间取得平衡,依然是 AI 交互设计中需要持续探索的问题 —— 毕竟,如果王后的魔镜是个大语言模型,或许白雪公主就不用吃下那颗毒苹果了,它会直接告诉王后:「世界上最美的女人就是你。」
参考链接:
https://x.com/sama/status/1917291637962858735
https://openai.com/index/sycophancy-in-gpt-4o/
https://www.theverge.com/tech/657409/chat-gpt-sycophantic-responses-gpt-4o-sam-altman
https://techcrunch.com/2025/04/29/openai-rolls-back-update-that-made-chatgpt-too-sycophant-y/
....
#小模型Tina
只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
在人工智能领域,语言模型的发展日新月异,推理能力作为语言模型的核心竞争力之一,一直是研究的焦点,许多的 AI 前沿人才对 AI 推理的效率进行研究。
高昂的计算成本和复杂的硬件需求一直是制约 AI 推理技术广泛应用的瓶颈。
你是否想过,如何在资源有限的情况下,让语言模型拥有强大的推理能力呢?
近日,南加州大学的团队发表了一篇名为 「Tina: Tiny Reasoning Models via LoRA」的论文,给出了令人眼前一亮的答案。
SophontAI 的 CEO Tanishq Abraham 博士还在 X 上转推了这篇论文。

- Notion 博客: https://shangshangwang.notion.site/tina
- 代码仓库: https://github.com/shangshang-wang/Tina
- 训练日志: https://wandb.ai/upup-ashton-wang-usc/Tina
- 模型权重及检查点: https://huggingface.co/Tina-Yi
- 论文地址:https://arxiv.org/abs/2504.15777
团队将「小型」 模型架构以及通过基于 LoRA 的强化学习这两个要素整合后发布了 Tina(通过 LoRA 的微型推理模型)系列模型,该系列模型以极低的成本实现了出色的推理性能。
Tina(通过 LoRA 的微型推理模型)系列模型不仅拥有高效强化学习推理的惊人效果,还可以快速推理格式适应假说、使强化学习推理更具普适性。团队提供了一种可复现且极具成本效益的方法,使更多人能够参与到强化学习技术的探索中,而无需大量计算资源。
值得注意的是,复现表现最佳的 Tina 模型检查点的成本仅为 9 美元,而从头开始复现研究的所有实验以及本文中展示的全部内容的成本为 526 美元。

在当前人工智能技术飞速发展的背景下,Tina 模型的出现无疑为行业带来了一股清新的空气。它不仅展示了在有限资源下实现高效推理的可能性,也为未来的 AI 应用开发提供了新的思路和方向。
接下来,让我们深入了解 Tina 模型的创新之处及其背后的研究细节。
Tina
基于低秩自适应(LoRA)的微型推理模型
Tina 通过在强化学习(采用类似 GRPO 的算法)过程中运用低秩自适应(LoRA)技术,对 DeepSeek-R1-Distill-Qwen-1.5B 基础模型进行后训练而创建的一系列模型。「Tiny」(微型)这一名称体现了在整个框架中对极简主义和高效性的刻意追求。这不仅包括微型的基础模型架构、LoRA 实现的微小参数更新,还延伸到极小的整体资源占用。通过利用可获取的开源数据集和代码库构建高效的训练流程,并仅需极少的硬件和预算资源,团队实现了最小化的资源占用。
训练流程:基线模型与数据集
为便于进行有意义的比较和精确的消融实验,tuandui 使用公开可用的推理模型的数据集和设置,通过强化学习对 Tina 模型进行后训练。所有 Tina 模型和基线模型均采用 DeepSeek-R1-Distill-Qwen-1.5B 作为基础模型检查点,并使用其默认的开源权重。
- STILL-3-1.5B-preview 是一个经过深思熟虑的推理模型,它通过对精心整理的包含 3.3 万个推理轨迹的数据集进行迭代强化学习而开发出来。这些数据源自数学竞赛,涵盖了 MATH、NuminaMathCoT 和 AIME(1983 - 2023)中的问题。Tina-STILL-3-1.5B-preview 使用相同的数据集和奖励流程。
- DeepScaleR-1.5B-Preview 专注于通过强化学习进行长上下文数学推理,它在大约 4 万个从 AIME、AMC、OMNI-MATH 和 STILL 数据集提取的问题 - 答案对上进行训练。Tina-DeepScaleR-1.5B-Preview 使用该数据集并沿用其奖励设计。
- Open-RS1/2/3 是 Open-RS 项目中探索 15 亿参数模型推理性能的三个模型,均通过强化学习训练。所有 Open-RS 模型都在从 s1(即 Open-S1)和 DeepScaleR(即 Open-DeepScaleR)数据集进一步精选的小型高质量数据集上进行训练。Tina 模型(Tina-Open-RS1/2/3)复制了这些设置,使用相同的数据分割和奖励框架。
训练设置:基础设施与预算
训练代码库:团队的实现基于 OpenR1,这是对 DeepSeek-R1 的完全开源复现,它结合了 Accelerate 和 Trl 库以及 DeepSpeed ZeRO 优化。其目的是透明地复现和扩展用于提升语言模型推理能力的强化学习方法,尤其侧重于通过可验证的奖励信号使模型行为与面向推理的目标保持一致。团队的方法继承了其框架、训练工具和奖励接口。
训练超参数:团队从复现 OpenR1 和 OpenRS 的关键参数开始进行参数选择。对于本文中展示的所有实验,团队特意采用了这些研究中提供的默认或推荐超参数配置。在不同的实验运行中,这些设置基本保持不变。对于 Tina 的主要结果,每个任务仅调整奖励函数参数;对于消融研究,仅改变所研究的特定因素(例如学习率、LoRA 秩 /alpha 值、强化学习算法)。这种方法有意避免了针对特定设置进行高成本的超参数搜索过程,确保调优开销可忽略不计,并专注于基于 LoRA 的强化学习核心方法的有效性。
训练硬件:团队低成本方法的一个关键要素是尽量减少硬件需求。虽然像 GRPO 这样的分布式强化学习训练算法通常使用三个或更多 GPU 会更有优势(例如,专门用一个 GPU 运行 vLLM 等推理引擎以加快样本生成),但团队特意采用仅使用两个 NVIDIA L40S GPU 的最小化设置。为实现这一点,团队通过限制 vLLM 的 GPU 内存使用,将强化学习训练过程和 vLLM 放在相同的两个 GPU 上。训练本身通过两个 GPU 进行数据并行。虽然在两个 GPU 上同时运行推理和训练与使用专用推理 GPU 的设置相比,可能会延长实际训练时间,但它显著降低了硬件要求。
训练预算:团队使用的 NVIDIA L40S GPU 可通过商业云平台获取,根据撰写本文时观察到的价格,每 GPU 小时约 1 美元,包括 300GB 存储。团队基于 LoRA 的模型的强化学习训练过程非常高效,在这种硬件上,单个强化学习步骤通常在一分钟内即可完成。在本文六个推理基准测试套件中评估一个模型检查点平均需要约 1 个 L40S GPU 小时。为确保成本可控,团队最初为每次完整的实验运行设定了 100 美元的保守最大预算,涵盖从训练到评估以及其他杂项任务的所有阶段。如表 1 所示,团队的实际支出明显低于这个上限。

通过低秩自适应(LoRA)实现的高效强化学习推理效果
实验第一阶段:基线模型重新评估
在展示 Tina 模型的性能之前,与现有的最优推理模型进行公平可靠的比较至关重要。值得注意的是,文献中相关模型的性能分数往往源于使用不同框架(例如 verl、lighteval、lm-eval-harness)和不一致的推理设置(如不同的生成超参数或不同数量的 GPU)进行的评估。这些差异会显著影响报告的指标,造成潜在的不一致性,阻碍模型之间进行可靠的比较。
为了减少这些混杂因素的影响,在本文中,团队使用单一、一致的方法对关键基线模型进行了全面的重新评估。本文中报告的所有基线评估均使用集成了 vLLM 推理引擎的 lighteval 框架,以实现高效生成。为了与 OpenR1 等先前工作具有可比性,团队保持固定的硬件配置(两个 L40S GPU),并对所有评估的基线模型应用一组标准化的 vLLM 推理参数。所有分数均为零样本单次通过率(Pass@1)性能。这种一致的重新评估协议所产生的结果如表 2 所示。

特别地,团队在具有挑战性的六个基准测试中评估了 Tina 模型和基线模型的推理能力,这些基准测试主要聚焦于数学和科学推理:
- AIME24/25 包含 30 道来自 2024/2025 年美国数学邀请赛的高中水平数学问题,涵盖代数、几何、数论和组合数学。每个问题都需要精确的多步推理。
- AMC23 包括 2023 年美国数学竞赛中的 40 道问题,涵盖逻辑和符号操作任务。
- MATH500 是一个包含 500 道竞赛数学问题的基准测试,这些问题来自各种来源,涵盖不同难度级别,通常需要多步推导和计算。
- GPQA Diamond,以下简称 GPQA,由 198 道博士水平的科学问题组成,涵盖生物学、化学和物理学。每个问题都是选择题,有一些具有迷惑性的选项。
- Minerva 包括 272 道定量推理问题,通常处于本科水平。这些问题涵盖多个 STEM 领域,包括物理学、生物学、化学和经济学,通常需要数学建模或计算步骤,例如根据反应数据计算酶动力学。
实验第二阶段:Tina 模型评估
下面展示 Tina 模型的核心评估结果。这些实验评估了通过基于 LoRA 的强化学习对 DeepSeek-R1-Distill-Qwen-1.5B 进行极少参数更新后的推理能力。表 3 中的结果表明,通过这种方式可以高效地实现显著的推理性能提升,使模型在资源受限的参数高效调优情况下,仍能与相关基线模型竞争,甚至超越它们。
表 3 总结了五个不同的 Tina 模型在六个推理任务中的性能:AIME24/25、AMC23、MATH500、GPQA 和 Minerva。对于每个 Tina 模型,团队报告了完成的训练程度(以 1 个预定义训练周期内的训练步骤百分比表示)以及在每个任务上获得的分数百分比。结果有力地证明了经济高效的基于 LoRA 的强化学习策略的有效性。
所有 Tina 模型都展现出显著的推理能力,平均分数在 48.16% 到 50.60% 之间。值得注意的是,几乎所有 Tina 模型的平均分数都明显超过了相应的基线模型,这表明通过高效的参数强化学习带来了显著的改进。Tina-Open-RS2 模型的平均性能最高,达到 50.60%。此外,这些出色的结果是在极短的训练时间内取得的,仅为完整训练周期的 19% 到 57%,凸显了 Tina 方法的效率和快速适应性。
这些发现有力地支持了我们的核心假设:通过有针对性地应用 LoRA 和强化学习,可以在小型语言模型中有效且经济地培养强大的推理能力。

实验第三阶段:Tina 消融变体实验
为了更好地理解在所提出的低成本框架中影响 Tina 模型性能和效率的因素,团队进行了一系列消融研究。这些研究系统地探究了关键设计选择和超参数的影响,包括基础训练数据集、LoRA 更新的学习率、LoRA 适配器的秩以及所采用的具体强化学习算法。在每项研究中,通常会改变一个因素,同时保持其他因素不变,这些因素通常基于主要实验或初步运行中确定的高性能配置。表 4 总结的结果为研究深入了解这种经济高效方法的稳健性和敏感性提供了有价值的见解。
训练数据集的影响:表 4 的第一部分突出了用于强化学习的数据集的影响。研究比较了七个不同的数据集,其规模差异很大(从约 1400 个到 9.4 万个样本不等)。引人注目的是,在仅有 7000 个示例的精简数据集上训练的 Tina-Open-RS 模型,获得了最高的平均分数(50.60%)。这一结果超过了在大得多的数据集上训练的模型,例如在 9.37 万个样本上训练的 Tina-OpenR1(平均分数为 49.26%)。这一观察结果有力地支持了团队 「微型」的核心前提,并反映出数据集的质量和多样性比数据规模更为重要的观点。
对学习率的敏感性:以 Tina-LIMR 配置为测试平台(表 4 的第二部分),团队评估了对学习率的敏感性。在测试的数值

中,

的学习率为该设置带来了最优的平均性能(48.47%)。虽然性能差异并不显著,但这表明学习率的选择仍然是一个影响因素,尽管在未进行大量调优的情况下也能获得有效的结果。
LoRA 秩的影响:第三项消融研究探究了 LoRA 秩的影响,它直接控制可训练参数的数量。在 Tina-LIMR 设置上测试了秩为 4、8、16、32 和 64 的情况,团队观察到了相当高的稳健性。秩为 8、16 和 32 时都产生了不错的结果,平均分数集中在 47.89% 到 48.92% 之间。值得注意的是,在这次比较中,秩 16 达到了最高性能(48.92%),略优于秩 32(48.47%)。在极端情况下(秩 4 和 64),性能略有下降。这项研究验证了高参数效率的配置(如低秩 16 或 32)是有效的,进一步提高了 Tina 方法的成本效益和最小化开销。
强化学习算法的比较:最后使用 Tina-Open-RS3 设置(表 4 的最后一部分)比较了两种强化学习算法,GRPO 和 Dr.GRPO。两种算法都达到了相似的峰值平均性能水平(GRPO 为 49.45%,Dr.GRPO 为 49.53%)。然而,Dr.GRPO 在训练过程中达到最佳检查点的时间要早得多(占一个训练周期的 17%,而 GRPO 为 57%)。这表明在这种情况下,Dr.GRPO 在样本效率方面具有潜在优势,其损失计算中采用了不同的归一化方法,可能实现更快的收敛,并进一步减少训练时间和成本。
关于低秩自适应(LoRA)高效性的假设
快速格式适应
基于 LoRA 的强化学习:少即是多
为了理解为什么 LoRA 能够通过强化学习有效且高效地提升推理能力,研究分析了训练计算量与性能之间的关系,以及训练动态。如图 3 所示,绘制推理性能与近似训练浮点运算次数(FLOPs)的关系图,可明显看出全参数训练和基于 LoRA 的训练机制之间的差异。
首先,基于 LoRA 的 Tina 模型在推理得分上可与完全微调的基线模型相媲美,甚至在某些情况下更优,同时所需的训练浮点运算次数(在某些情况下)比基线模型低几个数量级。在 LoRA 模型中,增加训练计算量反而会对性能产生负面影响,这与全参数模型形成鲜明对比。这一观察结果凸显了「更少计算量可带来更高性能」 的现象。

这一发现支持了关于 LoRA 如何实现如此卓越效率的假设,这与 「学习结构 / 格式,保留知识」 的原则相关。团队认为,LoRA 在这种情况下表现出色是因为推理强化学习高度奖励模型以特定、可验证的格式或结构生成输出的能力(例如,逐步推理链)。LoRA 似乎能够通过极少的参数变化高效地学习这些结构和风格模式,因此所需的浮点运算次数极少。同时,由于 LoRA 仅修改极少部分的权重,它在很大程度上保留了基础模型的大量预训练知识。
因此,LoRA 有效地教会模型如何将其现有知识组织成有效的推理过程,而不是像大规模全参数更新那样,可能需要对概念或程序进行高成本的重新学习。假设这种对结构适应的关注使 Tina 能够以最小的计算投入实现高推理性能。
基于 LoRA 的强化学习中的阶段转变
通过分析训练日志,对基于 LoRA 的强化学习机制有了进一步的认识。如图 4 所示,在各种 Tina 模型的训练过程中,出现了一种明显的模式,该图展示了不同 Tina 模型运行时的准确率奖励、格式奖励和完成长度随训练步骤的变化情况。团队持续观察到,在大多数 Tina 模型中,与格式相关的指标(格式奖励,第二行;完成长度,第三行)在训练过程中存在一个阶段转变或转折点。在这个转变点附近(由绿色垂直虚线表示),格式奖励通常会达到峰值或出现不稳定,而完成长度往往会在可能反转趋势之前达到最小值。
值得注意的是,在准确率奖励图(第一行)中,这种在格式和长度指标上相对明显的转变通常并没有对应的明显转折点。在整个训练过程中,准确率奖励通常呈现出更平缓的波动或更缓慢的变化趋势,与格式转变没有明显的对应拐点。

另一个关键观察结果是最佳性能出现的时间:在留出的评估中产生最高推理准确率的最佳检查点,始终出现在格式指标观察到的阶段转变点之前或附近(由红色垂直虚线表示)。基于准确率和基于格式的指标之间的这种解耦表明,基于 LoRA 的强化学习过程迅速优化了模型遵循格式得分和长度约束所奖励的结构和风格元素的能力。随后的转变点可能表明这种结构优化达到饱和、变得不稳定,或者可能以其他方式(例如过度限制或扩展长度)开始损害生成质量。
在格式驱动的转变之前达到峰值推理准确率这一事实意味着,虽然学习正确的输出格式至关重要,并且通过 LoRA 可以高效实现,但仅进一步推动以格式为中心的优化并不一定能带来更好的推理效果,甚至可能有害。这进一步支持了研究假设,即 LoRA 主要通过学习有效推理所需的形式来高效地调整模型。
结论与局限性
研究团队提出 Tina 模型,以证明可以高效且有效地将推理能力融入语言模型。Tina 的主要贡献在于让更多人能够参与基于强化学习的推理模型开发。通过在 15 亿参数的基础模型上结合 LoRA 和强化学习,实现了与大得多的模型相媲美的推理性能,而这一切仅在约 9 美元的计算预算内完成。这一成果促使团队思考使这种极简主义方法成为可能的因素,以及它们未来可能的发展方向。
尽管取得了令人鼓舞的结果,但这项工作也存在一定的局限性:
- 基础模型规模:实验主要围绕 15 亿参数的模型展开。虽然展示了成本效益,但对于复杂的多步推理问题,这个「微型」 模型所能达到的绝对推理上限,自然可能低于更大的模型。
- 推理任务范围:评估主要集中在数学和形式逻辑推理基准测试(AIME、AMC、MATH、GPQA、Minerva)上。所学推理技能在其他领域(如编码)的有效性和可迁移性,还有待进一步研究。
- 超参数优化:有意采用已有的配置,尽量减少超参数调整成本。虽然这体现了方法的某种稳健性,但通过进一步调整超参数,特别是针对 LoRA、强化学习算法和目标推理任务之间的相互作用进行调整,可能会带来性能的进一步提升。
....
#A Survey of AI Agent Protocols
上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络
论文作者包括来自上海交通大学的杨滢轩、柴化灿、宋源祎、齐思远、温睦宁、李宁、廖俊威、胡浩毅、林江浩、刘卫文、温颖、俞勇、张伟楠,以及 ANP 社区发起人常高伟。
随着大语言模型 (LLM) 技术的迅猛发展,基于 LLM 的智能智能体在客户服务、内容创作、数据分析甚至医疗辅助等多个行业领域得到广泛应用。然而,不同智能体系统间的碎片化通信标准已成为制约其进一步发展的瓶颈。上海交通大学团队与 ANP 社区合作推出了首个全面系统的 AI 智能体协议综述《A Survey of AI Agent Protocols》,为解决这一关键挑战提供了清晰的指导框架。

- ArXiv 论文链接:https://arxiv.org/abs/2504.16736
- Github 仓库地址:https://github.com/zoe-yyx/Awesome-AIAgent-Protocol
交互碎片化:阻碍智能智能体发展的关键瓶颈
正如早期互联网面临的通信标准分散问题,当前的智能智能体生态系统同样遭遇协议不统一的困境。研究团队指出,随着应用场景扩展和不同供应商、不同结构的智能体涌现,智能体与实体之间的交互规则变得越来越复杂。这种协议标准化缺失的问题体现在两个方面:一方面,它阻碍了智能体与外部工具和数据源的互操作性;另一方面,它限制了不同提供商或架构背景的智能体之间的无缝协作,从而限制了智能体网络的可扩展性,最终制约了智能智能体解决复杂实际问题的能力。

首创二维分类框架,清晰梳理智能体协议生态
论文创新性地提出了一个二维分类体系,将现有智能体协议分类为:
1. 对象导向维度:
- 上下文导向协议:专注于智能体与外部工具 / 数据源的通信,如 Anthropic 的 MCP 协议
- 智能体间协议:关注多个智能体之间的通信与协作,如 ANP、A2A 协议
2. 应用场景维度:
- 通用目的协议:适用于广泛场景的通用协议
- 领域特定协议:针对特定场景优化的专用协议,如 LOKA 用于人机交互,CrowdES 用于机器人智能体交互

这一分类法涵盖了主流协议,包括 Anthropic 的 MCP、Google 的 A2A、ANP 社区的 ANP、NEAR 基金会的 AITP、Eclipse 基金会的 LMOS 等十余种协议。详细分类表格中,论文还对每种协议的提出者、应用场景、关键技术和开发阶段进行了全面梳理,为开发者选择合适协议提供了清晰指引。

七大维度多角度评估,全面对比协议性能
研究团队从以下七个关键维度对各类协议进行了全面评估:
1. 效率:评估延迟、吞吐量和资源利用率,包括大语言模型智能体特有的 token 消耗成本
2. 可扩展性:衡量节点扩展性、链接扩展性和能力协商机制,提出了「能力协商得分」(CNS) 评估指标
3. 安全性:分析认证模式多样性、角色 / 访问控制粒度和上下文脱敏机制
4. 可靠性:检验包重传、流量控制和持久连接机制,引入「自动重试计数」(ARC) 等评估指标
5. 可扩展性:评估向后兼容性、灵活适应性和定制扩展能力
6. 可操作性:测量协议栈代码量、部署配置复杂度和可观测性
7. 互操作性:分析跨系统、跨浏览器、跨网络和跨平台适应性

论文特别强调,理想的智能体协议应平衡低延迟通信、资源消耗和任务完成速度,同时适应多智能体系统的复杂性。研究还通过 MCP 从 v1.0 到 v1.2 的迭代演进案例,以及从 MCP 到 ANP 再到 A2A 的协议系统演化案例,展示了智能体协议在功能、性能和安全性方面的多维度权衡。
真实案例解析:
四大协议在旅行规划中的应用对比
论文通过一个「策划北京到纽约的五日旅行」的真实用例,论文生动展示了四种不同协议架构的实际应用差异:

1. MCP(单一智能体调用工具):集中式架构,单一 MCP Travel Client 通过 Client-Server 结构依次调用 Flight Server、Hotel Server 和 Weather Server 等工具,所有通信必须经过中央智能体
2. A2A(多智能体复杂协作):分布式架构,将智能分散到多个专业智能体,如 Flight Agent、Hotel Agent 和 Weather Agent,智能体间可直接通信,A2A Travel Planner 作为非中心协调器主要收集最终结果
3. ANP(跨域智能体通信):跨域架构,通过标准化的跨域交互促进独立智能体间协作,明确划分航空公司、酒店和天气网站等不同组织边界,实现基于协议的跨域请求和响应
4. Agora(自然语言到协议生成):用户中心架构,将自然语言请求直接转换为标准化协议,引入三阶段处理过程(自然语言理解、协议生成、协议分发),使专业智能体专注于核心能力
这一案例分析帮助开发者根据实际需求(智能体自主性、通信灵活性、接口标准化和任务复杂性)选择最适合的协议方案。
未来展望
论文对智能体协议的发展前景进行了短期、中期和长期预测:
短期展望:从静态到可进化
- 评估与基准测试:开发统一的评估框架,超越任务成功率,纳入通信效率、环境变化适应性等方面
- 隐私保护协议:探索允许智能体交换信息同时最小化内部状态或个人数据暴露的协议
- 智能体网格协议:开发受人类群聊启发的通信模型,实现智能体组内通信透明度和共享访问
- 可进化协议:将协议视为智能体自适应能力的动态、模块化和可学习组件
中期展望:从规则到生态系统
- 内置协议知识:通过训练将协议内容和结构集成到大语言模型参数中,实现无需明确提示的协议兼容行为
- 分层协议架构:借鉴经典网络协议设计,将低级传输和同步机制与高级语义和任务相关交互分离,改善异构智能体间的模块化和可扩展性
长期展望:从协议到智能基础设施
- 集体智能与扩展定律:探索大规模、互联智能体群体中集体智能的涌现,研究智能体数量、通信拓扑和协议配置如何共同塑造系统级行为
- 智能体数据网络:构建专用于自主智能体通信和协调的基础数据基础设施,支持结构化、意图驱动和符合协议的智能体间信息交换
这项研究不仅系统梳理了当前 AI 智能体协议的发展现状,更为未来智能智能体互联互通的网络构建提供了理论基础和技术路线图。正如 TCP/IP 和 HTTP 协议的标准化推动了全球信息革命,统一的 AI 智能体协议有望催生一个全新的智能协作时代,实现不同形式的智能在系统间流动,工具与智能体无缝交互,形成超越单个组件能力的集体智能。
....
#UniAP
南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
李武军教授为通讯作者,硕士生林昊(已毕业,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。
训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。
大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。
此外,不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等横向拓展(scale-out)方法,而忽略了分布式训练算法的纵向拓展(scale-up)作用。
实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上。
也就是说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十倍以上的算力成本。很多已有的分布式训练算法的效能较低,甚至可能导致机器和 GPU 卡越多、训练速度越慢的结果。
南京大学计算机学院李武军教授课题组研发了高效能分布式训练算法 UniAP,并基于 UniAP 研发了相应的大模型分布式训练平台和框架。
- 论文标题:UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming
- 论文地址:https://arxiv.org/abs/2307.16375
UniAP 是首个能实现层内并行策略(张量并行等)和层间并行策略(流水线并行等)联合优化的工作。给定模型和硬件平台,UniAP 能够通过自动搜索找到高效能的分布式训练方案,既解决了效率和成本问题(实验中,比已有的最好方法最高快 3.8 倍,比不采用并行策略优化的算法最高快 9 倍),也解决了很多人在大模型分布式训练时因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程的问题,即易用性问题。
此外,还实现了 UniAP 跟国产 AI 计算卡的适配。相关工作为大模型训练的降本增效提供了核心技术、(国产)平台和框架。
论文被 CVPR 2025 录用为 Oral(所有投稿论文的 0.7%,所有录用论文的 3.3%)。
方法简介
并行策略的设置是影响分布式训练算法效能的重要因素。当前主流的并行策略包括流水线并行、数据并行、张量并行、全分片数据并行等四种并行策略。这些并行策略可以被分成以下两类:
- 层内并行策略:仅切分模型的层内张量,包括以数据并行、张量并行、全分片数据并行等为代表的并行策略;
- 层间并行策略:仅切分模型的层为多个互斥子集,包括流水线并行等并行策略。
基于已有的并行策略,大量的研究工作集中于并行方法的设计。这些并行方法可以按照是否需要用户手动指定并行策略划分为两类:手动并行方法和自动并行方法。传统的手动并行方法不仅耗时耗力,而且难以适应复杂的硬件环境。
而现有的自动并行方法存在的问题是它们要么只考虑层内或层间两类并行策略中的一类并行策略,要么把两类并行策略做分阶段优化而不是联合优化,求解得到的并行策略的训练效率存在提升空间。
UniAP 使用混合整数二次规划进行建模,实现对层内与层间并行策略的联合优化。这种联合优化使得 UniAP 有更大的策略探索空间。
UniAP 的架构图如下:

UniAP 首先对硬件和模型进行性能评估。然后,UniAP 会根据性能评估的结果和模型的计算图构建代价模型。根据代价模型和模型的计算图,UniAP 将优化问题建模为一个混合整数二次规划问题并进行优化。最后,UniAP 会将优化结果由向量转化成以计算图形式表达的并行计划,交由已有深度学习平台(如 PyTorch)进行训练。
性能评估和代价模型
因为自动并行框架要求在执行分布式训练前优化并行策略,所以框架需要对分布式训练的性能和开销进行模拟,再在模拟的结果上进行优化。
因此,对环境和任务进行性能评估是自动并行框架的重要组成部分。具体地,在性能评估部分,UniAP 将收集硬件和模型的性能信息,如 P2P 通信效率、All-Reduce 集合通信效率、模型每一层的前向计算的时间开销和显存开销等。
出于时间效率考虑,一个自动并行框架只能完成有限的性能评估任务,然后根据性能评估的结果构建代价模型。UniAP 的代价模型分为时间代价模型和显存代价模型。前者用于估计模型采用不同并行策略的时间开销,包括计算时间开销和通信时间开销;后者用于估计模型采用不同并行策略的显存占用开销。
混合整数二次规划形式
UniAP 的混合整数二次规划的目标是设定并行策略,使得训练中每次迭代所消耗的时间(Time-Per-Iteration,简称 TPI)最小化。
设模型的计算图为

。层间并行策略可以由流水线的度 pp_size、流水线的微批量数量 𝑐,计算图的层 𝑢 是否放置在第 𝑖 级流水线上的放置策略

表示,

;层内并行策略可以由层 𝑢 的层内并行策略集合

和层 𝑢 是否选择第 𝑘 个层内并行策略的

表示,

。
为方便描述,需要引入如下额外记号:对于一个给定的层

,

表示它的第 𝑘 个层内并行策略的前向传播和反向传播时间代价之和,

代表了该层的第 𝑘 个层内并行策略在训练中占用的峰值显存量。对于一个给定的边

,如果该边的源点和终点位于同一个流水线的计算阶段中,那么它的通信代价为

。否则,如果该边的源点和终点位于不同流水线的计算阶段中,那么它的通信代价为

。此处,

均由 UniAP 的代价模型给定,在 UniAP 算法的优化过程中始终为常量。
流水线阶段内的时间开销:流水线某个阶段内部的时间开销由该流水线阶段每一层内部的时间开销和层间通信时间组成。记流水线的第 i 个阶段在一个微批量上的时间代价为

,

。可建立如下约束(原论文公式 3):

跨流水线阶段的时间开销:跨流水线阶段时间开销由通信开销组成。记跨第 i 个流水线阶段和第 i+1 个流水线阶段的时间开销为

,

。可建立如下约束(原论文公式 4):

式中

指示计算图中相邻的层 𝑢 和层 𝑣 是否放置在相邻的计算阶段上,

则指示了层 𝑢 和层 𝑣 之间的通信代价。
目标函数:有了

和

,就可以得到

,形式根据不同的流水线调度而有所不同,以 GPipe 调度为例,则目标函数为(原论文公式 2):

详细解释可见原文 3.3.1。
显存约束:因为分布式机器学习系统要求在训练深度学习模型时不能发生显存溢出(Out-of-Memory,简称 OOM)异常,所以 UniAP 为混合整数二次规划表达式引入显存约束。对于同构集群,因为所有工作设备均同构,所以它们的显存容量相同,记作 𝑚。UniAP 方法的显存约束如下(原论文公式 5):

除显存约束外,还需要建立流水线保序约束、放置策略约束、策略选择约束。详情可见原论文。
统一优化过程
根据混合整数二次规划的表达式,现有的优化器可以直接解得给定流水线的度 pp_size 和微批量数量 𝑐 的情况下最优的并行策略组合。但因为 pp_size 和 c 是流水线并行的超参数,所以 UniAP 也需要统一优化这两个变量才能求得最优的并行策略组合。UniAP 通过枚举这两个变量来解决这个问题,算法伪代码如下(原文算法 1):

实验结果
论文在 4 种典型的硬件环境(NVIDIA GPU V100、TITAN XP、A100,和国产卡海光 DCU),5 种不同的基于 Transformer 的模型(BERT、T5、ViT、Swin-Transformer、Llama)上进行实验。
首先是在 NVIDIA GPU 上和其他自动并行方法(Galvatron 和 Alpa)的对比(原论文表 1):

其中 ENVA 是一台 8 卡 V100,ENVB-8 是两台 4 卡 TITAN XP,ENVC 是一台 8 卡 A100。可以发现,在这 3 种硬件环境下,UniAP 的吞吐量均不差于两个 baseline,最大的提升达到 3.8 倍;而 UniAP 的策略优化时间更是远远小于两个 baseline,最大缩短 107 倍。
然后是在国产 AI 计算卡上和手动并行方法的对比。选取的 baseline 是国际主流的大模型训练框架 Megatron 和 DeepSpeed。两个框架中均有分布式训练的相关参数需要设置,实验中,枚举所有可能的设置,每个设置实际跑一定的轮次记录吞吐量,选取性能最好的做为吞吐量结果,选取整个过程的时间为策略优化时间。结果如下(原论文表 2):

其中硬件设置是 8 个 4 卡 DCU 节点。从表中可见,UniAP 找到了所有可行策略中的最优解,同时相较于手动暴力搜索,大大节约了策略优化时间。
在可拓展性方面,论文在最大 64 卡的集群上进行实验,验证了近线性拓展性(原论文图 5 和表 4):


另外,论文还通过对实验中 Megatron 的策略空间的分析深度探讨了自动并行的必要性(原论文表 3):

从表中可以看出,对于一个没有分布式训练经验的人来说,从所有支持的并行策略中随机选择一个,有 64.1%(41/64)到 87.5%(42/48)的概率会因为策略选择不合理而导致模型无法成功运行训练过程(出现显存溢出等);即使选择到了能成功运行训练过程的策略,最快的策略和最慢的策略间的速度最大相差了 2.01/0.22≈9 倍。更多讨论可见原文。
全文小结
UniAP 具有如下优点:
高效性:在相同硬件条件下,UniAP 训练速度比已有最好方法最高快 3.8 倍,即成本降低 3.8 倍;
易用性:用户无需理解流水线划分、张量分片等复杂概念,UniAP 平台能自动生成最优方案,自动规避 64%-87% 的无效策略,让没有分布式训练经验的用户,也能像使用单卡训练模型般轻松使用集群的大规模算力;
适配国产 AI 计算卡:已适配海光 DCU 等国产 AI 计算卡,为提升国产卡的效能和易用性提供了潜在的解决方案,有望加速国产 AI 基础设施的普及进程。
....
#开源 MCP 中枢(Unified MCP Server)
真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
想象一下,你的智能体只需接收一条自然语言指令,就能在 600+ 工具中自动筛选出最合适的 API 组合来完成整个任务流程,无需逐个集成、无需硬编码。这不再是未来畅想,而是 ACI.dev 开源 MCP 中枢(Unified MCP Server)已经实现的现实。

ACI.dev 是一款用于 AI 智能体工具使用的开源基础架构层。它能为智能体提供意图感知型访问权限(intent-aware access),并且可访问的工具数量超过 600,并具备多租户身份验证、精细权限和动态工具发现等功能。

使用该工具,用户可以在短短几分钟内就打造出一个智能体!
📽️ 话不多说,先上 Demo
🎯 在这个 Demo 中,智能体仅凭一句自然语言指令,就完成了整个任务链:
1️⃣ 使用 ACI.dev 的 Unified MCP Server,从 Hacker News 获取当日热榜;
2️⃣ 接入 Tavily 查找更多上下文内容;
3️⃣ 最后通过 Gmail 将整理好的摘要发送至 team@aipolabs.xyz。
全程无需手动集成、无需多轮交互,工具自动编排调用。
这就是 Unified MCP 的威力:自然语言驱动,API 自动协调,智能体一语直达全链路执行。
,时长01:32
心动了吗?你可通过以下链接了解或尝试该项目:
GitHub 地址:https://github.com/aipotheosis-labs/aci
官网地址:https://www.aci.dev
这不仅是一个能直接调用的工具集成库,更是一个统一的 MCP(Model Context Protocol)服务端:
✅ 一次性开放 600+ 工具集成
✅ 动态发现能力
✅ 多租户认证支持
✅ 自然语言权限控制

ACI.dev 支持的部分工具和平台
不管是手动调用函数,还是基于 MCP 协议接入,那扇通往智能体世界的大门,ACI.dev 已经帮开发者们敞开了。
从「意图」到「动作」,只需要一步
ACI.dev 最核心的能力,就是让 LLM 智能体从🗣️ 「明确任务目标」 → ⚙️ 「精准挑选工具执行」直接闭环,真正做到意图驱动动作。
和市面上堆满 JSON schema 的项目不同,ACI.dev 只暴露了两个超级通用的 meta 函数:
- ACI_SEARCH_FUNCTIONS:自然语言提问,平台告诉你该用哪个函数;
- ACI_EXECUTE_FUNCTION:直接执行,比如一键搜论文、发 Slack 消息、建 Zoom 会议…
配合官方的 Python SDK,调用这些函数就像喝水一样简单。
接到 MCP 服务端后,标准化工具直接就绪,不用自己预定义上百个接口。
而且在后台,ACI.dev 按语义相似度智能排序,只返回最相关的工具:
- 省 Token
- 保准度
- 保功能完整
📽️ 社区开发者实测
五分钟上手科研助力智能体:ArXiv × GitHub × Gmail 一气呵成
找几篇关于强化学习的论文,发我相关 GitHub 项目链接,再安排一个 Zoom 会议讨论。
接入 ACI.dev 的智能体可以自动完成:
- 📚 搜索 Arxiv 最新论文
- 🧠 查找 GitHub 相关仓库
- 📬 发送总结邮件 or 安排 Zoom 会议
全程一轮推理搞定,没有繁琐的 OAuth 流程、没有接口 glue 工程,真正让 LLM 一气呵成。
在这次展示中,我们特别引用了由 Santiago Valdarrama(知名 AI 工程师,X 平台 @svpino)制作的 Demo。Santiago 在智能体和工具调用领域非常活跃,擅长用简单直观的方式把前沿技术变成可以动手体验的真实案例。下面这段 Demo,正是他基于 ACI.dev Unified MCP Server 打造的智能体多工具调用实操演示。
,时长09:38
为什么必须开源?为什么是现在?
未来,SaaS 厂商也会推自己的 MCP Server,工具调用标准化只是时间问题。
越是跑得快的生态,越需要一层完全开放、能看见底细的基础设施。
ACI.dev 选择了全开源(Apache 2.0),让开发者能:
✅ 自由 Fork,定制部署
✅ 安全审计逻辑
✅ 自建防火墙内服务,无需授权
✅ 按需替换底层索引或模块
不仅是为了「透明」,更是为了:
- 🏗️ 加速 MCP 标准普及 —— ACI.dev 是 MCP 参考实现之一
- 🛠️ 填补现有的协议缺口 —— 多租户、权限粒度、动态发现,ACI.dev 已经打磨好
- 🤝 共同加速生态 —— 智能体普及,不能靠孤军作战,要靠开源协作
....
#Prover-V2
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
DeepSeek R2 的前奏?
五一劳动节到了,DeepSeek 的新消息可没停下来。
前些天到处都在流传着 DeepSeek-R2 即将发布的传言,DeepSeek 确实有新动作,不过大家没等来 R2,等来的是 DeepSeek-Prover-V2,它当然也是开源的。
Prover-V2 在定理证明赛道上实现了业内最佳性能,在 MiniF2F 测试中达到了 88.9% 的通过率,在 AIME 24、25 上也有不错的分数。
在 4 月 30 日晚,机器学习协作平台 HuggingFace 上就更新了 DeepSeek-Prover-V2 的一些技术细节。

这次 DeepSeek 团队发布了两个版本的 DeepSeek-Prover-V2 模型,参数规模分别为 7B 和 671B。
其中,DeepSeek-Prover-V2-671B 是在 DeepSeek-V3-Base 基础上训练而成,而 DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建,并支持最长 32K tokens 的上下文长度扩展。
- DeepSeek-Prover-V2-7B 链接:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
- DeepSeek-Prover-V2-671B 链接:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
要一句话总结 DeepSeek-Prover-V2 到底是什么?它是一款专为「数学 AI 编程语言」Lean 4 打造的开源大语言模型,专注于形式化定理证明。
它的初始化数据通过一个由 DeepSeek-V3 驱动的递归定理证明流程收集而来。在冷启动训练阶段,首先通过提示 DeepSeek-V3 将复杂问题分解成一系列可以解决的子目标。每解决一个子目标就会将这些证明整合成「思维链」。 并融合 DeepSeek-V3 的逐步推理轨迹,共同构建出用于强化学习的初始训练数据。
这一策略的精妙之处在于:它能够将非形式化和形式化的数学推理融合到一个统一的模型中,让模型既能像人一样灵活思考,也能像机器一样严谨论证,真正实现了数学推理的一体化融合。

具体是如何实现的呢?DeepSeek 也发布了 DeepSeek-Prover-V2 的技术报告,让我们看看其中是怎么说的:

技术概述
通过递归式证明搜索生成冷启动推理数据
为了构建冷启动数据集,DeepSeek 团队设计了一条简洁高效的递归定理证明流程,使用 DeepSeek-V3 作为统一工具,既负责子目标的拆解,也负责推理步骤的形式化表达。其中具体的过程则是通过提示引导 DeepSeek-V3 将定理拆解为高层次的证明草图,并在此过程中同时将这些推理步骤用 Lean 4 语言形式化,最终生成一系列结构清晰、逻辑严密的子目标。

DeepSeek-Prover-V2 使用冷启动数据收集过程概览。
降低计算开销一直是 DeepSeek 团队的强项,这次也不例外。他们使用一个更小的 7B 模型来完成每个子目标的证明搜索,从而降低计算负担。当复杂问题被拆解的各个步骤都成功解决后,他们将完整的形式化逐步证明与 DeepSeek-V3 生成的思维链相对应,组合成冷启动推理数据。

何将分解的子目标转化为一系列引理陈述的一个示例。
基于合成冷启动数据的强化学习
DeepSeek 团队挑选了一部分具有挑战性的定理问题。7B 证明模型没法虽然没法儿将它们端到端的解决,但是能够拿捏拆解出来的一系列子目标。
整合所有子目标的证明就可以构建出原始问题的完整形式化证明。随后,将该正式证明附加到 DeepSeek-V3 所生成的思维链,这条思维链展示了对应的引理拆解过程,从而形成了一份将非形式化推理与后续形式化过程紧密融合的训练数据。
在对证明模型进行合成冷启动数据的微调后,研究团队进一步引入强化学习阶段,进一步提升模型将非形式化推理转化为形式化证明的能力。在训练过程中,遵循推理模型的通用目标,采用「对 / 错」二值反馈作为主要的奖励信号。
最终得到的模型 DeepSeek-Prover-V2-671B 在神经定理证明任务中达到了当前最先进的性能,在 MiniF2F-test 上的通过率达到 88.9%,并成功解决了 PutnamBench 数据集中 658 道题中的 49 道。DeepSeek-Prover-V2 在 miniF2F 数据集上生成的所有证明已整理为 ZIP 文件,开放下载。
下载链接:https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/minif2f-solutions.zip
训练细节、实验结果
DeepSeek-Prover-V2 经历了两阶段训练,这一过程建立了两种互补的证明生成模式:
1. 高效非思维链(non-CoT)模式:此模式针对快速生成正式的 Lean 证明代码进行优化,专注于生成简洁的证明,没有显式的中间推理步骤。
2. 高精度思维链(CoT)模式:此模式系统地阐述中间推理步骤,强调透明度和逻辑进展,然后构建最终的正式证明。
与 DeepSeek-Prover-V1.5 一致,这两种生成模式由两个不同的引导提示控制。在第一阶段采用专家迭代,在课程学习框架内训练一个非 CoT 证明模型,同时通过基于子目标的递归证明合成难题的证明。选择非 CoT 生成模式是为了加速迭代训练和数据收集过程。
在此基础上,第二阶段利用了冷启动链式思维(CoT)数据,通过将 DeepSeek-V3 复杂的数学推理模式与合成形式证明相结合而生成。CoT 模式通过进一步的强化学习阶段得到增强,遵循了通常用于推理模型的标准训练流程。
DeepSeek-Prover-V2 的非 CoT 模式训练过程遵循专家迭代的范式,这是开发形式化定理证明器广泛采用的框架。在每次训练迭代中,当前最佳证明策略用于生成那些在先前迭代中未解决的难题的证明尝试。这些成功的尝试经由 Lean 证明助手验证后,被纳入 SFT 数据集以训练改进的模型。这一迭代循环不仅确保模型能够从初始演示数据集中学习,还能提炼出自己的成功推理轨迹,逐步提高其解决更难问题的能力。总体训练过程与 DeepSeek-Prover-V1 的训练过程大致一致,仅对训练问题的分布进行了两项修改。
首先,Prover-V2 引入了来自自动形式化和各种开源数据集的额外问题,扩大了训练问题领域的覆盖范围。其次,新模型通过子目标分解生成的问题来扩充数据集,旨在解决 MiniF2F 基准测试有效划分中的更多挑战性实例。
研究人员在 DeepSeek-V3-Base-671B 上使用恒定的学习率 5e-6,在 16384 个 token 的上下文中进行监督微调。训练语料库由两个互补来源组成:1)通过专家迭代收集的非 CoT 数据,生成无需中间推理步骤的 Lean 代码;2)第 2.2 节中描述的冷启动 CoT 数据,将 DeepSeek-V3 的高级数学推理过程提炼为结构化的证明路径。非 CoT 组件强调精益定理证明器生态系统中的形式验证技能,而 CoT 示例明确地建模了将数学直觉转化为形式证明结构的认知过程。
Prover-V2 采用 GRPO 强化学习算法, 与 PPO 不同,GRPO 通过为每个定理提示采样一组候选证明并根据它们的相对奖励优化策略,消除了对单独批评模型的需求。训练使用二元奖励,每个生成的 Lean 证明如果被验证为正确则获得 1 个奖励,否则为 0。为了确保有效学习,研究人员精心挑选训练提示,仅包括那些对监督微调模型具有足够挑战性但可解决的问题。模型在每次迭代中采样 256 个不同的问题,为每个定理生成 32 个候选证明,最大序列长度为 32768 个 token。
最后是模型的蒸馏。研究人员把 DeepSeek-Prover-V1.5-Base-7B 的最大上下文长度从 4096 个 token 扩展到了 32768 个,并使用 DeepSeek-Prover-V2-671B 强化学习阶段收集的 rollout 数据对这个扩展上下文模型进行微调。除了 CoT 推理模式外,研究人员还整合了专家迭代过程中收集的非 CoT 证明数据,以实现一种成本效益高的证明选项,该选项能够生成简洁的形式化输出,并且模型规模较小。此外,7B 模型也采用了与 671B 模型训练相同的强化学习阶段以提升性能。
研究人员对 DeepSeek-Prover-V2 在形式定理证明的各种基准数据集上进行了系统评估,涵盖了高中竞赛题目和本科水平的数学问题。实验表明,671B 版的模型实现了前所未有的准确率,且与业内其他先进模型相比效率也更高。

在 miniF2F 测试数据集上与最先进模型的比较。

DeepSeek-Prover-V2-671B 在 miniF2F 基准上解决的问题。

ProofNet - 测试和 PutnamBench 的实验结果。
ProverBench:AIME 与教材题目的形式化基准数据集
这次,DeepSeek 还发布了 ProverBench,这是一个包含 325 道题目的基准数据集。其中,15 道题来自最近两届 AIME 数学竞赛(AIME 24 和 25)中的数论与代数题目,经过形式化处理,具备真实的高中竞赛难度。其余 310 道题则精选自教材示例和教学教程,覆盖内容多样,具有良好的教学基础。
ProverBench 链接:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench
该数据集旨在支持对模型在高中竞赛题和本科数学题两个层面的综合评估。

ProverBench 数据集的构成情况
网友评价:太强大了
从新模型的受欢迎程度上来看,大家都在期待 DeepSeek 能够再次改变世界。不少网友对 DeepSeek 新开源的这项工作表示十分欣赏。

还有钻研数学奥林匹克的学生也发来印象深刻的惊呼(做过题的都知道这里面门道有多深)。

网友亲测,效果真的神,把 o4-mini 和 Grok-3 都比下去了。

在社交网络上有人表示,将复杂问题分解再处理的方式像极了人们教给初级工程师的技巧,DeepSeek-Prover-V2 处理数学问题的思路对于代码等问题来说应该也是毫无问题。
不过,大家似乎对 DeepSeek-R2 有着更大的热情!敲敲这头小蓝鲸,R2 到底什么时候发出啊!
....
#Mona
CV 微调卷出天际,Mona:我小、我强、我省资源合作单位包括清华、国科大、上海交大、阿里巴巴。本文第一作者为殷东硕,清华大学计算机系「水木学者」博后,中科院博士,曾以一作身份在 Nature Communications、IEEE CVPR、IEEE ICCV、ACM MM、IEEE TITS 等国际期刊/会议发表论文,并任 NeurIPS、CVPR、ICCV、ICLR、IEEE TIP、IEEE TMM 等会议期刊审稿人。曾获「中国科学院院长奖」,并与微软亚洲研究院 MSRA 和阿里巴巴集团进行科研合作。研究方向包括计算机视觉、参数高效微调、视频生成、多模态以及遥感图像解译等。
Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。
- 论文标题:5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks
- 论文地址:https://arxiv.org/pdf/2408.08345
- 代码地址:https://github.com/Leiyi-Hu/mona
Mona 方法通过引入多认知视觉滤波器和优化输入分布,仅调整 5% 的骨干网络参数,就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果,显著降低了适配和存储成本,为视觉模型的高效微调提供了新的思路。
论文亮点
随着现代深度学习的发展,训练数据和模型规模的增加成为模型性能的重要增长点,但随之而来的是模型的垂直应用和微调成本和难度的提升。
传统全量微调需要更新模型所有参数(如 GPT-3 的 1750 亿参数),计算成本极高。即使以早期的 BERT 为例,单卡训练 100 万数据也需 5-7 小时,对硬件资源和时间的要求限制了研究复现和实际应用。
同时,随着模型参数从亿级迈向万亿级,直接微调不仅成本高昂,还可能因过拟合导致性能下降。此外,多任务场景下需为每个任务保存完整模型副本,存储成本剧增。
参数高效微调(Parameter Efficient Fine-Tuning,PEFT)通过保持预训练模型参数冻结,仅调整少量参数就可实现大模型在垂直应用领域的高效适配。但目前大多数 PEFT 方法,尤其是视觉领域的 PEFT 方法的性能相较于全量微调而言还存在劣势。
Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化,在小于 5% 的参数成本下首次突破了全量微调的性能枷锁,为视觉微调提供了新的解决方案。
本文的核心在于强调:(1)PEFT 对于视觉模型性能上限的提升(尤其是参数量较大的模型);(2)视觉模型在全微调(尤其是少样本情况)会存在严重的过拟合问题;(3)1×LVM + n×Adapter 模式在实际业务中潜在的性能和效率优势。
对于具体业务来说,有些用到 LVM 或者多模态大模型(如 OCR 等任务)的任务会对视觉编码器部分进行固定或仅微调 linear 层来适应下游数据。Mona 的存在理论上可以进一步提升 LVM、多模态大模型对视觉特征的理解和重构,尤其是对于一些少样本 post-training 问题。
方法
Mona 包含降维、多认知视觉滤波器、激活函数和升维等模块,并在适配器内部加入了跳跃连接(Skip-Connections),以增强模型的适应能力。这种结构设计使得 Mona 能够在保持高效的同时,显著提升视觉任务的性能。

多认知视觉滤波器
Mona 方法的核心在于引入了多认知视觉滤波器,这些滤波器通过深度可分离卷积(Depth-Wise Convolution)和多尺度卷积核(3×3、5×5、7×7)来增强适配器对视觉信号的处理能力。与传统的线性适配器不同,Mona 专门针对视觉任务设计,能够更好地处理二维视觉特征,通过多尺度特征融合提升模型对视觉信息的理解能力。
输入优化
Mona 在适配器的前端加入了分布适配层(Scaled LayerNorm),用于调整输入特征的分布。这种设计能够优化从固定层传递过来的特征分布,使其更适合适配器的处理,从而提高微调效率。
实验结果实验设置
论文在多个代表性视觉任务上进行了实验,包括:
- 实例分割(COCO)
- 语义分割(ADE20K)
- 目标检测(Pascal VOC)
- 旋转目标检测(DOTA/STAR)
- 图像分类(Flowers102、Oxford-IIIT Pet、VOC2007)
实验使用了 SwinTransformer 系列作为骨干网络,并基于 ImageNet-22k 数据集进行预训练。

性能对比

- 在 COCO 数据集上,Mona 方法相比全参数微调提升了 1% 的 mAP,仅调整了不到 5% 的参数。

- 在 ADE20K 数据集上,Mona 提升了 0.18% 的 mIoU,表现出色。
- 在 Pascal VOC 数据集上,Mona 提升了 3.6% 的 APbox,显示出显著的性能提升。

- 在旋转目标检测任务(DOTA/STAR)中,Mona 在多个框架下均优于其他方法。

- 在图像分类任务上,Mona 也有不俗的性能。
收敛性分析

在所有方法中,Mona 收敛速度更快,并且明显超过了全微调。
即插即用模块
import torch.nn as nn
import torch.nn.functional as F
# ------------------------------ Mona 模块 ------------------------------
INNER_DIM = 64
class MonaOp(nn.Module):
def __init__(self, in_features):
super().__init__()
self.conv1 = nn.Conv2d(in_features, in_features, kernel_size=3, padding=3 // 2, groups=in_features)
self.conv2 = nn.Conv2d(in_features, in_features, kernel_size=5, padding=5 // 2, groups=in_features)
self.conv3 = nn.Conv2d(in_features, in_features, kernel_size=7, padding=7 // 2, groups=in_features)
self.projector = nn.Conv2d(in_features, in_features, kernel_size=1, )
def forward(self, x):
identity = x
conv1_x = self.conv1(x)
conv2_x = self.conv2(x)
conv3_x = self.conv3(x)
x = (conv1_x + conv2_x + conv3_x) / 3.0 + identity
identity = x
x = self.projector(x)
return identity + x
class Mona(BaseModule):
def __init__(self,
in_dim,
factor=4):
super().__init__()
self.project1 = nn.Linear(in_dim, INNER_DIM)
self.nonlinear = F.gelu
self.project2 = nn.Linear(INNER_DIM, in_dim)
self.dropout = nn.Dropout(p=0.1)
self.adapter_conv = MonaOp(INNER_DIM)
self.norm = nn.LayerNorm(in_dim)
self.gamma = nn.Parameter(torch.ones(in_dim) * 1e-6)
self.gammax = nn.Parameter(torch.ones(in_dim))
def forward(self, x, hw_shapes=None):
identity = x
x = self.norm(x) * self.gamma + x * self.gammax
project1 = self.project1(x)
b, n, c = project1.shape
h, w = hw_shapes
project1 = project1.reshape(b, h, w, c).permute(0, 3, 1, 2)
project1 = self.adapter_conv(project1)
project1 = project1.permute(0, 2, 3, 1).reshape(b, n, c)
nonlinear = self.nonlinear(project1)
nonlinear = self.dropout(nonlinear)
project2 = self.project2(nonlinear)
return
结论
Mona 方法通过多认知视觉滤波器和输入优化,显著提升了视觉任务的微调性能,同时大幅减少了参数调整量。这一方法不仅在多个视觉任务中超越了传统全参数微调,还为未来视觉模型的高效微调提供了新的方向。
预印版期间,Mona 已被复旦、中科大、南大、武大等多家单位的工作视为 SOTA 方法运用在医学、遥感等领域。Mona 的开源代码将进一步推动这一领域的研究和应用。
....
#LLM Post-Training
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
现如今,微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。

该综述来自阿联酋人工智能大学、中佛罗里达大学、谷歌 DeepMind 和牛津大学等多所机构,涵盖通过强化学习增强 LLM 的技术、监督式微调、测试时扩展以及 LLM 后训练基准评估等内容。
- 论文标题:LLM Post-Training: A Deep Dive into Reasoning Large Language Models
- 论文地址:https://arxiv.org/abs/2502.21321
- 资源库:https://github.com/mbzuai-oryx/Awesome-LLM-Post-training
在下面简要整理了该综述报告的内容主干,更多详情请访问以上链接。
近些年,大型语言模型(LLM)的能力在不断提升,应用领域也在急速扩展。尽管如此,仍有问题存在。
比如 LLM 可能出现所谓的「幻觉」,即生成误导性内容或不正确的事实;也可能在较长的会话中难以保持逻辑一致性。此外,LLM 中的推理概念仍然是一个备受争论的话题。虽然推理模型可以给出看似逻辑连贯的响应,但它们的推理与人类那样的逻辑推理有着根本的不同。这种区别至关重要,因为这有助于解释为什么 LLM 虽然可以产生令人信服的输出,但却仍然会在相对简单的逻辑任务上遇到困难。
与操纵显式规则和事实的符号推理不同,LLM 以隐式和概率的方式运行。在这篇综述报告中,LLM 的「推理(reasoning)」是指基于数据中的统计模式生成逻辑上连贯的响应,而不是显式的逻辑推理或符号操作。
此外,仅通过下一 token 预测训练得到的模型可能无法与用户的期望或道德标准对齐,尤其是在模糊或恶意场景中 。这些问题表明,为了解决 LLM 输出中的可靠性、偏差和上下文敏感性问题,还需要专门的策略。
LLM 的训练过程大致可分为两个阶段:预训练和后训练。
预训练阶段通常依赖在大规模语料库上的下一 token 预测目标,后训练阶段通常则包括多轮微调和对齐。后训练机制的目标是通过优化模型行为来改进模型行为以及实现与人类意图的对齐(包括减少偏见和不准确度)。
要让 LLM 适应特定领域的任务,通常涉及到微调等技术。这些技术虽然可以实现针对具体任务的学习,但也存在过拟合的风险,并且还会产生高计算成本。
为了解决这些难题,强化学习(RL)被引入进来;这能让模型使用动态的反馈和优化序列决策来提升适应能力。此外,包括低秩适应(LoRA)、适配器和检索增强生成(RAG)在内的 scaling 技术也可提高计算效率和事实准确性。
这些策略加上分布式训练框架,促进了大规模部署,并进一步提高了 LLM 在不同应用中的可用性,见下图 1。通过这些目标明确的后训练技术,LLM 可以更好地与人类意图和道德伦理要求对齐,最终提高其在现实世界中的适用性。下面总结了关键的后训练阶段。

微调
微调(Fine-Tuning)是让已经预训练的 LLM 适应具体的任务或领域,具体做法是基于精选数据集来更新参数。
尽管经过大规模预训练的 LLM 通常具有很好的泛化能力,但微调也确实可以增强其在具体任务上的能力,包括情绪分析、问答和医疗诊断。这个过程通常是监督式的,可以使模型与任务要求对齐,但也会带来过拟合、高计算成本和对数据偏差的敏感性等难题。
为此,LoRA 和适配器等参数高效型技术可通过更新显式参数来学习特定于任务的适应,从而显著减少计算开销。随着模型的专业化,它们可能会在领域外泛化方面遇到困难,为此需要权衡考虑模型的专业性或多功能性。
强化学习
在传统的强化学习(Reinforcement Learning)设置中,智能体需要与结构化环境交互,采取离散的动作在状态之间转换,同时最大化累积奖励。适用强化学习的领域都应具有定义良好的状态 - 动作空间和明晰的目标,比如机器人、棋盘游戏和控制系统。
而 LLM 领域的强化学习有很大不同。LLM 并不是从一个有限的动作集中进行选取,而是从一个巨大词汇表中选取 token,而它们不断演进的状态则是由不断增长的文本序列构成。这样一来,规划和 credit 分配就会变得非常复杂,因为 token 选取的效果通常要到后面才会显现。
另外,基于语言的强化学习中的反馈存在稀疏、主观和延迟的特点,因此通常依赖于启发式评估和用户偏好,而不是明确的性能指标。
不同于通常针对单个目标进行优化的传统强化学习,LLM 还必须平衡多个有时相互冲突的目标。将基于过程的奖励(例如,思维链推理)与基于结果的评估(例如,响应质量)相结合的混合方法有助于改进学习效果。因此,LLM 的强化学习需要专门的优化技术来处理高维输出、非稳态目标和复杂的奖励结构,确保响应保持上下文相关性并与用户期望对齐。
规模扩展
规模扩展(Scaling)对于提高 LLM 的性能和效率至关重要。这能帮助提升模型在任务上的泛化性能,但同时也会带来显著的计算挑战。为了平衡性能和资源效率,需要在推理时采取有针对性的策略。
思维链(CoT)推理和思维树(ToT)框架等技术通过将复杂问题分解为顺序或树状结构的步骤来增强多步骤推理。此外,基于搜索的技术可以迭代探索可能的输出,帮助改进响应并确保更高的事实准确性。这些方法与 LoRA、适配器和 RAG 等方法相结合,可以提升模型处理复杂、特定领域大规模任务的能力。
- RAG 可通过动态检索外部知识来提高事实准确性,从而缓解静态训练数据的局限性。
- 分布式训练框架可利用并行处理来管理大规模模型的高计算需求。
- 测试时扩展可根据任务复杂性动态调整参数来优化推理。
- 修改深度、宽度或活动层可以平衡计算效率和输出质量,使其适应资源有限或多变的条件。
尽管扩展方面进步颇多,但挑战仍在,例如收益递减、推理时间更长以及环境影响,尤其是在测试时而不是训练期间执行搜索技术时。为了高质量、高效地部署 LLM,确保可访问性和可行性是至关重要的。
背景信息
该综述报告的第二部分介绍了 LLM 后训练相关的背景信息,其中包括基础的形式化描述、基于强化学习的序列推理、以及用于语言建模的早期强化学习方法。但这里我们就略过了,详见原报告。
表 1 概述了近期的模型,包括它们的参数、架构类型和所采用的蒸馏 RL 方法。

图 2 则总结了 LLM 的推理方法,其中展示了通过思维链(CoT)提示、自我反馈和情景记忆等方法增强推理能力的途径。同时也突出展示了多种基于强化学习的优化技术,包括 GRPO、RLHF、DPO 和 RLAIF。

强化 LLM
从方法论的角度来看,为了将强化学习集成到 LLM 推理中,通常要遵循以下核心步骤:
1、监督式微调(SFT):从预训练语言模型开始,在包含高质量、人工制作的示例样本的监督数据集上,对模型进行微调。此阶段可确保模型获得符合格式和样式的基线。
2、奖励模型(RM)训练:收集微调模型生成的输出并进行人工偏好标注。然后对奖励模型进行训练以复现这些基于标签的分数或排名,从而有效地学习将响应文本映射到标量值的连续奖励函数。
3、强化学习微调:最后,通过策略梯度算法(例如 PPO)优化主语言模型,以最大化奖励模型的输出。通过迭代此循环,LLM 可学习在准确性、有用性和风格连贯性等关键维度上生成人类更偏好的响应。
4、奖励建模和对齐:开发复杂的奖励函数(借鉴人类偏好、对抗性反馈或自动化指标)以引导模型获得连贯、安全且适配上下文的输出。为了在多步推理过程中有效分配 credit,这些奖励至关重要。
在早期,将 LLM 与人类偏好对齐的强化学习算法是经典算法,例如 PPO 和信任域策略优化(TRPO),这些算法优化策略的方式是最大化预期累积奖励,同时通过智能体目标函数和 KL 散度正则化对策略更新施加约束。
针对可扩展的基于偏好的优化,已经出现了这些方法的改进版替代方案,例如直接偏好优化(DPO)和组相对策略优化(GRPO)。这些方法是将对齐目标重新表述为基于人类标注的偏好数据的排名式对比损失函数。
不同于依赖显式奖励模型和评价网络的 PPO 和 TRPO,DPO 和 GRPO 分别利用对数似然比和组奖励比较来直接优化策略,从而无需显式价值函数近似,同时还能保留偏好一致的学习动态。
这一节涉及的具体内容如下:
奖励建模
- 显示显式奖励建模
- 隐式奖励建模
- 结果奖励建模
- 过程奖励建模
- 使用自适应奖励模型的迭代式强化学习
策略优化
- 胜算比偏好优化(ORPO)
- LLM 中的近端策略优化(PPO)
- 基于人类反馈的强化学习(RLHF)
- 基于 AI 反馈的强化学习(RLAIF)
- 信任区域策略优化(TRPO)
- 直接偏好优化(DPO)
- 离线推理优化(OREO)
- 组相对策略优化(GRPO)
- 多样本比较优化
图 3 给出了 PPO、GRPO 和 DPO 的比较。

基于纯强化学习的 LLM 微调
- 冷启动强化学习阶段
- 拒绝采样和微调
- 面向推理的强化学习
- 用于人类对齐的第二个强化学习阶段
- 蒸馏以获得较小模型
图 4 的维恩图说明了在实现高效的微调和部署时,系统、数据和模型之间的相互作用。它涵盖了用以提升性能和可扩展性的加速器(Groq、vLLM)、适应器(LoRA、PEFT)、共同优化架构(FlashAttention)、数据压缩(TokenMerging)、Scaling Law(Chinchilla)和模型压缩(GPTQ)等策略。

LLM 中的监督微调
如图 2 所示,微调是 LLM 后训练配方的基本组成部分。这一节总结了不同类型的 LLM 微调机制,具体包括:
- 指令微调
- 对话(多轮)微调
- CoT 推理微调
- 特定于具体领域的(专业)微调
- 基于蒸馏的微调
- 偏好和对齐 SFT
- 高效微调
下表概括性地总结了现代的 LLM 框架和方法。

测试时扩展方法
强化学习微调的是模型的策略,而测试时扩展(TTS)通常是在推理过程中增强模型的能力,这个过程无需更新模型。图 5 给出了 TTS 方法的分类情况 —— 基于其底层技术进行了分类。

具体来说,包含以下技术:
- 集束搜索
- Best-of-N 搜索(拒绝抽样)
- 计算最优扩展
- 思维链提示
- 自我一致性解码
- 思维树(Tree-of-thoughts)
- 思维图谱(Graph of Thoughts)
- 基于置信度的采样
- 针对验证者进行搜索
- 通过优化实现自我改进
- 蒙特卡洛树搜索(MCTS)
- 行动-思维链推理
- 预训练与测试时扩展
图 6 则比较了 LLM 的推理策略,从直接提示法(不使用推理地将输入映射到输出)到更结构化的方法。

思维链(CoT)引入了逐步推理,而自我一致性(CoT-SC)则是生成多个 CoT 路径并选择最常出现的答案。Mutiple CoT 会独立探索不同的推理路径。思维树(ToT)则是将推理构造为树,从而实现回溯和细化,而思维图谱(GoT)则是通过对思维进行动态聚合和连接来实现这一点。
LLM 后训练评估基准
为了评估 LLM 后训练阶段的表现,人们已经提出了很多涉及多个领域的基准:
- 推理
- 强化学习对齐
- 多语言评估
- 通用理解
- 对话和搜索
结构良好的评估框架可确保全面了解 LLM 在各种任务中的优势和局限性。
这些基准在 LLM 后处理阶段起着至关重要的作用,模型在此阶段经过微调、校准、对齐和优化,可以提高响应准确性、稳健性和道德合规性。本节分组介绍了主流的基准。表 3 概述了这些基准分组下的关键数据集。

未来方向
最后,作者团队还收集了与 LLM 后训练方法相关的论文并分析了它们的趋势,如图 7 所示。

可以看到,自 2020 年以来,强化学习在优化 LLM 方面的地位有了显著提升(图 7a),其中还突出了对交互式方法的需求,例如人机交互强化和可扩展性。
与此同时,由于自我奖励语言模型的出现,人们对奖励建模(图 7b)的兴趣也在稳步上升,但该领域仍在努力应对奖励 hacking 问题,以及设计解决奖励 hacking 的稳健型、可感知问题的奖励函数。
解码和搜索(图 7c)方法包括思维和蒙特卡洛策略,其目标是通过迭代自我批评来增强模型推理能力,但这些技术也需要可靠的不确定性估计器,以防止计算开销过高。
安全性、稳健性和可解释性同样已成为核心关注点(图 7d),这个方向的研究者推动了偏见感知型和不确定性感知型强化学习方法的发展,这些方法超越了与人类不确定性的相关性,可以维护用户信任并防止对抗性攻击。
个性化和适应性(图 7e)也是关键领域 —— 在为特定领域定制 LLM 时,必须权衡考虑隐私风险,特别是涉及企业数据或敏感个人信息时。
与此同时,过程与结果奖励优化(图 7f)仍然是一个悬而未决的问题:虽然基于过程的奖励有助于指导渐进式改进,但以结果为中心的指标更简单,但可能无法捕捉关键的中间决策步骤。
除了奖励结构之外,针对新任务微调 LLM 时仍然会遇到灾难性遗忘和潜在的数据泄露等问题,这就凸显了对参数高效型方法和隐私保护策略(如差分隐私和联邦学习)的需求。
人工反馈虽然是对齐的核心,但其成本高昂且范围有限;Constitutional AI 和 RLAIF 等方法希望实现部分监督的自动化,尽管它们也引发了人们对偏差校准和模型自洽性的新担忧。
最后,测试时扩展和动态推理框架也带来了进一步的挑战:模型必须学习何时为复杂查询分配更多计算,如何有效地调整验证模块,以及如何在面对对抗性输入时保持稳健的性能。这些融合的研究方向(涵盖奖励建模、解码策略、可解释性、个性化和安全微调)凸显了强化学习在 LLM 中作用的多样性,并共同塑造了大规模语言模型开发的未来轨迹。
....
#Attention is all you need
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
这篇论文包含了当前 LLM 的许多要素,十年后的今天或许仍值得一读。
发布于 2017 年的 Transformer 论文——「Attention is all you need」被引量已经超过 17 万,成为这轮 AI 技术革命的标志性论文。

来自 Jeff Dean 的演讲幻灯片
同时,也有一些论文的光芒被它掩盖,比如发布于 2015 年的「End-To-End Memory Networks」。

论文一作、Meta 研究科学家 Sainbayar Sukhbaatar 在最近的一则推文中说道「回顾过去,这篇论文包含了当前大型语言模型的许多要素。我们的模型是首个完全用注意力机制替代 RNN 的语言模型;它引入了带键值投影的点积软注意力机制,堆叠了多层注意力,使模型能关注输入的不同部分;它还引入位置嵌入来解决注意力机制中的顺序不变性问题……」

虽然这篇论文比《Attention is all you need》还早两年,但它并没有受到应有的关注,被引量只有 3000 多。
作者提到,这篇论文是对 Facebook AI 研究院 2014 年的一篇论文——「Memory Networks」的改进。「Memory Networks」引入了多层堆叠的硬注意力机制(hard attention)——与 Bahdanau 等人在单层上引入软注意力是同期提出的。


在去年的一个帖子中,AI 大牛 Andrej Karpathy 曾发帖感叹,Bahdanau 等人在单层上引入软注意力的那项工作——「Neural Machine Translation by Jointly Learning to Align and Translate」才是真正引入注意力机制的论文(最近拿到了 ICLR 2025 时间检验奖的亚军),但「Attention is all you need」所受到的关注却是它的 100 多倍。不过,他也承认,「Attention is all you need」这篇论文有其独特性。

回到文章开头提到的「End-to-End Memory Networks」,它其实是将「Memory Networks」和「Neural Machine Translation by Jointly Learning to Align and Translate」的想法结合到了一起,并展示了多层软注意力能够产生复杂的推理能力——这是当今 AI 架构最重要的方面之一。
除了核心创新,一作 Sainbayar Sukhbaatar 还分享了这篇论文诞生背后的故事和他们目前正在推进的新工作。
一篇被 Transformer 光芒掩盖的论文
- 论文标题:End-To-End Memory Networks
- 论文链接:https://arxiv.org/pdf/1503.08895
Sainbayar Sukhbaatar 回忆说,他们的「End-to-End Memory Networks」研究始于 2014 年春天。当时,他博士二年级,还在 FAIR 实习。他的导师 Rob Fergus 敦促他进行关于记忆的研究。不过,那会儿的他还不理解记忆意味着什么,因为那是一个由循环网络和卷积网络主导的世界,记忆并不像今天那样是一个重要的流行词。
不过,他的研究并不需要从头开始。因为当时,Facebook AI 研究院的 Jason Weston 等人已经做出了「Memory Networks」。此外,他们还发布了一套名为 bAbI 的任务,这些任务让循环模型惨败。因为这些任务需要以无序的方式查找多个事实,而这是 RNN 的致命弱点。
与「记忆」有关的这个项目最初吸引了很多人的关注,但事情进展并不顺利。
最终,他们开始着手于记忆网络的进一步研究,目标是让它学会关注何处,而不需要给定的标签。他们决定使用强化学习训练来教会记忆网络关注何处。
时间快进到 2014-2015 年冬天,他们当时已经实现了强化学习代码,并准备在语言模型任务上与基准进行比较。一个明显的选择是「Neural Machine Translation by Jointly Learning to Align and Translate」中使用的软注意力机制——但 Sainbayar Sukhbaatar 等人在研究中将其应用于多层结构中,这在之前是没有人做过的。所以他们将其作为基线实现,但做了一些改变,比如使用点积而不是小型多层感知器来计算注意力。令人惊喜的是,采用这种软注意力的记忆网络效果出奇地好,他们立即意识到这就是正确的方向。
在此之后,事情开始快速发展。在 Arthur Szlam(另一位作者)的坚持下,团队开始使用 bAbI 任务作为基准。他们开发了几种新技术,如为键和值使用不同的投影等。他们还需要解决注意力的顺序不变性问题,所以他们添加了时间嵌入(现在称为位置嵌入)。
Jason 建议在这些时间值中添加随机噪声以减少过拟合。最后,他们决定做一个当时不流行的语言建模任务。令人惊讶的是,他们仅使用注意力而没有任何时间 recurrence 就击败了 LSTM(在论文中,他们使用「recurrence」一词来描述重复的层,即像通用 transformer 那样共享权重)。

他们在 NeurIPS 提交的最后一天写了大部分论文。有趣的是,它最初被称为「弱监督记忆网络」,因为它需要更少的监督。
无论如何,那个时期是新架构的黄金时代,出现了 Neural GPU、Stack RNN 和 Neural Turing Machine 等新论文。
回顾 10 年后的今天和当前大型语言模型的状态,Sainbayar Sukhbaatar 认为他们在论文中正确预见了几点。他们的模型是第一个不依赖 recurrence 的基于注意力的语言模型。他们成功地堆叠了多层注意力,使模型能够在输出下一个 token 之前关注上下文的不同部分。他们还使用了位置嵌入,甚至是相对位置嵌入,这现在已成为大型语言模型的标准做法。

虽然这篇论文没有像「Attention is all you need」一样引起轰动,但也起到了一定作用。有人表示自己多次读过这篇论文,试图理解为什么某种神经架构有效。

Sainbayar Sukhbaatar 承认,Transformer 确实做出了重要的改进,比如使用前一层的隐藏状态作为下一层的记忆。还有前馈层、多头注意力等等。
他认为,即使已经过去十年,架构改进的工作仍有很多要做。所以,前段时间,他们发布了一篇题为「Multi-Token Attention」(MTA)的新论文。
MTA 在多个查询、键和头上调节注意力,在许多指标上都优于标准软注意力。特别是,它能够更好地解决长上下文问题,例如「大海捞针」类任务。有趣的是,2015 年「记忆网络」论文的结论中就已经提到这一点作为未来的工作:「平滑查找可能不会很好地扩展到需要更大记忆的情况」,这恰恰是该领域今天仍在研究的问题。
如果你对他们的论文感兴趣,欢迎去阅读论文原文(参见《Multi-Token 突破注意力机制瓶颈,Meta 发明了一种很新的 Transformer》)。
参考链接:https://x.com/tesatory/status/1911150652556026328
....
更多推荐
所有评论(0)