2025 AI年度复盘:从100篇顶会论文看中美巨头的AGI路线之争

导读:2025年,AI领域经历了从"暴力美学"到"精细工程"的范式转变。本文基于对DeepMind、Meta、DeepSeek等顶尖机构100+篇论文的系统梳理,深度解析四大核心技术突破——流体推理、长期记忆、空间智能与元学习,揭示通往AGI的真实技术路径。


核心观点速览

2025 AI技术全景图

图:2025年AI技术发展全景概览。这一年的技术进步主要集中在流体推理(Fluid Reasoning)、长期记忆(Long-term Memory)、空间智能(Spatial Intelligence)以及元学习(Meta-learning)四个领域,标志着从"把模型做大"到"把模型做聪明"的范式转变。

2025年的核心命题

模型不仅要博学,更要懂思考、能记住、会学习。

通过Yoshua Bengio提出的AGI框架(基于CHC认知理论),我们发现之前的AI存在严重的"能力偏科":它在一般知识上得分极高,但在即时推理(R)、**长期记忆(MS)视觉处理(V)**上几乎是空白。这种不平衡构成了通往AGI的最大阻碍。

CHC能力维度 2023-2024 2025中期 2025晚期 关键技术驱动力
一般知识 (K) 8% 9% 持平 事实性微调(FACTS benchmark)
读写能力 (RW) 6% 10% 持平 注意力机制变革
数学能力 (M) 4% 10% 持平 OpenAI o3在AIME达96.7%
即时推理 ® 0% 7% 8% Test-Time Compute + RL
工作记忆 (WM) 2% 4% 6% 上下文窗口扩展至2M-10M tokens
长期记忆 (MS) 0% 0% 3% Titans/MIRAS架构
记忆检索 (MR) 4% 4% 5% 幻觉率降低但未根除
视觉处理 (V) 0% 4% 5% 世界模型发展
听觉处理 (A) 0% 6% 持平 原生多模态音频处理
处理速度 (S) 3% 3% 6% 小模型蒸馏(Gemini 3 Flash)

核心洞察:推理®、长期记忆(MS)、视觉(V)三个维度从0起步,是2025年补短板最成功的领域。这三个"零分项"的突破,构成了本文的核心叙事。


一、暴力美学的终结:2025年的范式转变

1.1 Scaling Law遇到天花板

2025年最重要的认知转变是:单纯堆参数的时代结束了

GPT-4.5已经遇到了互联网数据枯竭的问题,训练超大型稠密模型的工程难度也在几何级增加。正如英伟达所言,Test-Time Compute已成为大模型的第三个Scaling Law——继模型参数和训练数据之后的新增长维度。

突破路径 = MoE稀疏化 + 合成数据 + 强化学习

MoE(混合专家)架构的崛起尤为显著。DeepSeek V3采用的MoE架构,通过稀疏激活机制,实现了"一次只训部分专家"的高效训练模式。相比传统稠密模型,MoE在保持性能的同时大幅降低了训练成本。

这标志着AI研究从"把模型做大"转向"把模型做聪明"。


二、流体推理革命:Test-Time Compute的崛起

2.1 从"背书鹦鹉"到"思考机器"

2025年最重要的范式革新是Test-Time Compute(推理时计算,TTC)

核心理念:智能不仅是参数的函数,也是时间的函数。

以OpenAI o1和DeepSeek R1为代表,AI学会了在输出答案前进行数秒甚至数分钟的内部推演:

传统模型:输入 → 直接输出(毫秒级)
TTC模型:输入 → 内部推演 → 自我验证 → 输出(秒/分钟级)

技术本质:TTC将推理过程外化为可观察的思维链(Chain of Thought),模型通过长达数千token的内部对话,进行假设验证、错误回溯和方案比较。

2.2 强化学习的三大工程突破

强化学习(RL)成为提升推理能力的核心手段,因为模型的思维过程无法在预训练期间直接引导。RL系统可以拆解为三个核心组件:

RL系统 = 探索策略(采样) + 评分系统(奖励) + 参数更新(优化)
2.2.1 评分系统的革新:RLVR + Rubric Rewards

Rubrics as Rewards评分框架

图:Rubrics as Rewards (RaR) 框架的完整工作流程。这是解决RLVR在开放领域缺乏客观验证标准问题的关键创新。

图解说明

  • 左侧 - Rubric生成过程:LLM根据任务自动生成评分细则,包含四类评分维度:
    • Essential(必要项):如医疗诊断中的 <diagnosis> 标签
    • Important(重要项):如 <key sign> 关键体征、<quantitative finding> 定量发现
    • Optional(可选项):如 <root cause> 根因分析
    • Pitfall(陷阱项):如 <common misdiagnosis> 常见误诊
  • 右侧 - GRPO训练过程:模型根据Rubric进行自我评分,实现无需人工标注的强化学习训练

DeepSeek R1的成功证明了一个惊人的事实:只需给模型一个对错结论作为奖励信号,模型就能自发探索推理过程。这就是ORM(Outcome Reward Model)的威力。

评分方法 适用场景 优势 局限
ORM(结果奖励) 数学、代码、逻辑 简单高效,无需过程标注 长推理链易崩溃
PRM(过程奖励) 复杂多步推理 精细反馈,识别错误步骤 标注成本极高
Rubric评分 开放领域(文学、医疗) 灵活可控,适应主观任务 需人工设计评分细则
Self-Critique 通用场景 利用模型自身置信度 依赖模型校准质量

RLVR的局限与突破

在数学、代码等可验证领域,RLVR效果显著。但对于文学、医疗等缺乏客观真假的领域,业界正在探索两条路径:

  1. 外求法:人工或模型制定复杂评分细则(Rubric),让模型按规则打分
  2. 内求法:利用模型自身的确信度(Self-Critique)作为奖励信号

Kimi K2的joint RL stage策略就是将RLVR和Self-Critique Rubric Reward结合的典型案例。

2.2.2 RL的Scaling Law:Sigmoid而非幂律

RL的Sigmoid Scaling Law

图:Meta ScaleRL研究的核心发现——RL性能与计算量呈Sigmoid曲线关系,而非传统的幂律关系。

图解说明

  • 拟合公式 R c = R 0 + A 1 + exp ⁡ ( − B ( log ⁡ C − log ⁡ C m i d ) ) R_c = R_0 + \frac{A}{1+\exp(-B(\log C - \log C_{mid}))} Rc=R0+1+exp(B(logClogCmid))A
    • A(Asymptotic reward):渐近奖励上限,表示RL能达到的最高性能天花板
    • B(Scaling exponent):控制曲线陡峭程度,值越大表示效率越高
    • C m i d C_{mid} Cmid:达到50%总增益时的计算量点
  • 曲线特征:起步难(初期增长缓慢)→ 中间猛(快速增长期)→ 最后饱和(接近天花板)
  • 关键发现:图中展示了fitted curve(拟合曲线)和extrapolated curve(外推曲线),证明该规律可用于预测大规模训练效果

这意味着什么?

  1. RL有天花板:不能无限提升智力上限,只能把模型已有的潜能"逼"出来
  2. 一旦逼到100%,RL就失效:想要突破,必须革新底座模型或算法架构
  3. 好消息:我们离天花板还远,还有大量工程优化空间

ScaleRL的最佳实践

  • 使用**长思维链(Long CoT)**作为关键驱动力
  • 使用大Batch Size(如2048 prompts)触达更高性能天花板
  • 这将RL从"炼金术"转变为可预测的工程科学
2.2.3 参数更新的革新:GRPO算法

DeepSeek R1带来的第二个RL震荡是GRPO(Group Relative Policy Optimization)算法的流行。

传统PPO的问题

  • 需要同时训练Actor Model(写答案)和Critic Model(打分)
  • Critic Model需要在线训练,显存占用巨大
  • 特别适合PRM(过程奖励),但成本高昂

GRPO的创新

# 传统PPO:需要Actor + Critic两个模型
loss_ppo = actor_loss + critic_loss  # 显存占用高

# GRPO:砍掉Critic,用组内平均分替代
def grpo_loss(responses, rewards):
    # 1. 对每个问题采样一组输出 {o1, o2, ..., oG}
    # 2. 用奖励模型对这些输出评分
    # 3. 通过减去组平均值并除以组标准差进行标准化
    normalized_rewards = (rewards - rewards.mean()) / rewards.std()
    # 4. 使用标准化奖励作为优势函数
    return policy_gradient_loss(responses, normalized_rewards)

核心优势

  • 节省50%显存(去掉Critic Model)
  • 搭配ORM,形成极简训练流程
  • 效果不逊于PPO,工程实现更简单

GRPO的变体演进

变体 提出者 核心改进
GSPO Qwen 引入分值加权,不只看是否高于平均分,还看绝对得分
CISPO MiniMax 重要性采样,保留长COT中更重要的部分

三、记忆革命:治愈模型的"健忘症"

3.1 为什么记忆如此重要?

如果说TTC是2025年前半年最重要的模型变革,那记忆能力的提升就是后半年最重要的突破。这是唯一一个在GPT-5时代AGI得分还是0的分支能力——短板中的短板。

没有记忆能力的模型存在两个致命问题:

问题 具体表现 影响
无法自我学习 必须在算力工厂通过再训练学习 成本高昂,与日常使用脱节
无法个性化 无法记住用户偏好 每次对话都是"初次见面"

3.2 三种记忆路径的进化

记忆方式 2024年状态 2025年突破 代表技术
上下文记忆 有限窗口(128K) 2M-10M tokens 注意力优化、Kimi Linear
RAG外挂记忆 简单检索 反思+进化 ReMem、Evo-Memory
参数内化记忆 不存在 架构级突破 Titans、Nested Learning

3.3 Titans:让模型拥有"活着的记忆"

Titans架构的并行训练机制

图:Google Titans架构的核心创新——神经记忆的并行训练机制。这是2025年记忆领域最重要的架构级突破。

图解说明
图中展示了记忆更新的四个关键步骤,以及如何实现高效的并行计算:

步骤 机制 技术实现 作用
Linear Within-Chunk 线性层的块内处理 通过cumsum(累积求和)实现并行 处理局部信息
Non-Linear Cross-Chunk 非线性层的跨块处理 通过梯度计算实现关联记忆 建立长程依赖
Momentum Calculation 动量计算 通过矩阵乘法(Matmul)加速 稳定更新过程
Weight Decay 权重衰减 自动遗忘机制 清理不重要信息

关键创新:所有梯度都可以预计算(All gradients are pre-computed),使得测试时的参数更新变得高效可行。

Titans是Google Research 2025年的突破性工作,由姚班校友钟沛林参与完成。其核心创新是测试时参数更新

传统Transformer:训练完成 → 参数冻结 → 推理(无状态)
Titans:训练完成 → 推理时持续更新参数 → 动态学习(有状态)

Titans的设计哲学

英伟达将Test-Time Compute称为大模型的第三个Scaling Law。OpenAI把它用在推理(Reasoning),Google这次把它用在了记忆(Memory)

核心机制详解

机制 作用 技术实现 类比
惊奇度(Surprise Metric) 决定是否存入记忆 基于输入数据与模型已有知识的差异(梯度大小) 越新鲜越记得住
遗忘机制(Weight Decay) 清理不重要信息 自动衰减旧记忆权重 避免记忆过载
门控融合 整合短期+长期记忆 记忆作为额外上下文输入给注意力机制 海马体+皮层协作

3.4 Nested Learning:分层更新的革命

Nested Learning的神经可塑性设计

图:Nested Learning的核心设计理念——模仿人脑的多频率神经振荡,实现真正的持续学习能力。

图解说明

左侧 - 人脑的神经振荡
展示了人脑的五种脑电波频率,各司其职:

脑电波类型 频率范围 主要功能
Gamma波 30-150 Hz 感知信息处理(最快)
Beta波 13-30 Hz 主动思考、决策
Alpha波 8-13 Hz 放松、注意力调节(图中重点标注)
Theta波 4-8 Hz 记忆编码、学习
Delta波 0.5-4 Hz 记忆巩固(最慢)

右侧 - Nested Learning的架构设计

  • Uniform and Reusable Structure(统一可复用结构):架构分解为一组神经元(线性或局部深度MLP),每个神经元拥有自己的上下文流和目标函数
  • Multi Time Scale Update(多时间尺度更新)
    • Highest Frequency Neurons:每token更新,快速反应
    • High Frequency Neurons:高频更新,短期记忆
    • Mid Frequency Neurons:中频更新,中期记忆整合
    • 低频层:约16M token更新一次,保证知识延续性

如果说Titans是在Transformer上加了记忆模块补丁,那Nested Learning就是更宏大的架构改变——它将整个模型的参数冻结都解放了。

核心思想:模仿人脑的多频率工作机制

Nested Learning的分层设计

低频层(~16M tokens更新一次)→ 保证知识延续性,避免灾难性遗忘
        ↓
中频层 → 中期记忆整合
        ↓
高频层(每token更新)→ 快速反应,短期记忆

核心优势

  1. 整个模型都是"活的",可以持续学习
  2. 成本比传统SFT/RL达成同等效果更低
  3. 真正的Personal AI成为可能

3.5 RAG的模型化升级:ReMem框架

ReMem Agent框架

图:DeepMind提出的ReMem Agent框架——将RAG从"图书管理员"升级为具备反思与进化能力的智能系统。

图解说明

左侧(a) - Test-time Evolution Setting(测试时进化设置)
Agent通过迭代搜索、综合和进化其记忆。每次与环境交互后,记忆都会得到更新和优化。

右侧(b) - Illustrative Think-Act-Refine Loop(思考-行动-精炼循环)
展示了Agent架构的三个核心模块:

模块 功能 具体操作
Think(思考) 推理和分解 对新上下文进行"内省",标记无效步骤和关键策略
Act(行动) 执行操作 在环境中执行具体动作,产生结果
Refine Memory(精炼记忆) 检索、修剪、组织 对记忆进行压缩和提纯,存储策略而非原始数据

之前,RAG被讥讽为"图书管理员"——只增不减,照单全收。但2025年,它发生了质的飞跃。

ReMem:Action-Think-Memory Refine全链路处理

DeepMind提出的ReMem引入了Agent式的记忆管理:

新上下文 → Think(内省标记:标记无效步骤和关键策略)
        ↓
    Act(执行操作)
        ↓
    Refine(记忆精炼:修剪冗余、重组便于检索)
        ↓
    存储(定期清理 + 失败尝试作为负面教材)

效果:记忆不再是静止的录像,而是经过压缩和提纯的智慧。它存储的更多是策略,使模型能够调用过往成功经验,实现真正的经验复用。

3.6 灾难性遗忘的解决方案

在2025年之前,灾难性遗忘是参数记忆更新的最大敌人。模型用微调的方式做更新,很容易学了新的忘了旧的。但在2025年,学术界提出了多种解决方案:

方法 提出者 核心思想 效果
Sparse Memory Finetuning Meta 在Transformer里加百万个独立槽位的空白内存层,筛选不重要槽位更新 仅11%旧知识遗忘(vs全量微调89%)
On-Policy Distillation (OPD) Thinking Machines 结合RL采样方式和SFT监督信号,学生在自己的"犯错分布"中学习 既不遗忘,又压缩成本

这两条路径,最终都导向了通过微调更新模型参数更稳定的路径。梦想中的"白天模型陪你说话,晚上你睡觉它微调更新参数",也许会变成可能。


四、空间智能:走出"柏拉图洞穴"

4.1 三大技术流派

另一个在Bengio AGI定义中2024年得分还是0的能力是视觉处理。2025年,这一能力在Sora 2、Veo 3等视频生成模型的爆发下得到了有效提升。

流派 代表 核心理念 优势 代表人物
自监督生成 Sora 2/Veo 3/Genie 3 从视频学习物理规律 效果惊艳,涌现物理直觉 OpenAI/Google
符号主义 World Labs/Marble 3D几何+神经渲染 稳定可控,工业落地快 李飞飞
预测表征 V-JEPA 2 预测即理解 提取因果本质 Yann LeCun

4.2 视频生成的Scaling Law突破

DiT的Scaling Law

图:论文《Towards Precise Scaling Laws for Video Diffusion Transformers》的核心发现——DiT的Scaling Law与LLM存在显著差异。

图解说明

左图(a) - 小规模模型拟合
展示了四个不同规模模型(0.02B到0.72B参数)在不同训练token数下的损失曲线:

  • 横轴:Training Tokens (Billions)
  • 纵轴:Loss
  • 不同颜色曲线代表不同模型规模(N=0.02B, 0.06B, 0.13B, 0.72B)

右图(b) - 外推预测验证

  • 红色五角星:预测的1.07B模型在10B tokens下的损失
  • 蓝色五角星:预测的0.72B模型在5.85×10²⁰ FLOPs下的损失
  • 绿色/橙色六边形:实验结果,验证了外推预测的准确性

关键发现

DiT的Scaling Law ≠ LLM的Scaling Law

特性 LLM 视频扩散模型(DiT)
超参数敏感度 相对稳定 对Batch Size和Learning Rate极度敏感
缩放定律 可直接套用 需要专门拟合,直接套用会失效
预测难度 较易 需要考虑更多因素

Veo 3成功的秘密:在对Veo 3团队的采访中,DeepMind员工表示,训练效果好主要是因为"打通了视频生成的Scaling Law"。

4.3 原生多模态的Scaling Law

原生多模态Scaling Law

图:Apple论文《Scaling Laws for Native Multimodal Models》的核心发现——早期融合vs晚期融合的性能对比。

图解说明

两张图展示了在不同FLOPs(10²⁰到10²²)下的损失曲线:

左图 - Early Fusion(早期融合/原生多模态)

  • 拟合公式: L ( N , D ) ∝ N − 0.30051 ⋅ D − 0.33491 L(N,D) \propto N^{-0.30051} \cdot D^{-0.33491} L(N,D)N0.30051D0.33491
  • 参数利用率更高

右图 - Late Fusion(晚期融合/后台多模态)

  • 拟合公式: L ( N , D ) ∝ N − 0.27777 ⋅ D − 0.34299 L(N,D) \propto N^{-0.27777} \cdot D^{-0.34299} L(N,D)N0.27777D0.34299
  • 样本效率高,但存在上限瓶颈

关键结论

架构类型 样本效率 参数利用率 性能上限
晚期融合 高(加个视觉编码器就能变成视觉模型) 存在瓶颈
早期融合 低(需要从头训练) 上限更高

晚期融合架构相对于早期融合架构可能存在上限劣势。这意味着费力去训原生多模态是值得的。

4.4 V-JEPA 2:预测即理解

V-JEPA 2架构

图:Meta V-JEPA 2的完整训练流程——首个基于视频训练的世界模型。

图解说明

上半部分 - 预训练阶段

  • 输入:100万小时互联网视频 + 100万张图片
  • 方法:视觉掩码去噪目标(Visual Mask Denoising Objective)
  • 产出:具备Understanding(理解)和Prediction(预测)能力的V-JEPA 2模型

下半部分 - 后训练阶段

训练方式 数据需求 输出能力
Attentive Probe Training 少量标注数据 Action Classification(动作分类)、Object Recognition(物体识别)、Action Anticipation(动作预期)
Action-Conditioned Post-Training 仅62小时机器人数据 Robot Manipulation(机器人操控)、零样本控制

Yann LeCun的核心观点一直是:自回归生成只是鹦鹉,预测才能学习物理规则

训练机制

随机遮挡视频部分 → 要求模型预测被遮挡内容 → 提取因果本质
        ↓
教师编码器看到完整视频,生成目标特征向量
        ↓
模型被迫学习"可预测"的规律(重力、碰撞)
自动忽略"不可预测"的噪声(光斑、纹理)

V-JEPA 2-AC(动作条件化)变体

已经能够预测"如果我执行这个动作,世界会变成什么样"——这是真正的因果推理能力。

性能对比

  • 运行速度比Nvidia Cosmos模型快30倍
  • 仅用62小时机器人数据即可实现零样本控制
  • 使用超过100万小时视频进行预训练

五、元学习:学会如何学习

5.1 Richard Sutton的批评

强化学习之父Richard Sutton在2025年批评当前LLM:

“只是被冻结的过去知识,缺乏在与环境交互中实时学习的能力。”

元学习的定义:不是把知识写死,而是把"获取知识的能力"写进代码里。

只有具备元学习能力的模型,才能:

  • 遇到新问题时,通过很少几个样本调动"通用解题逻辑"
  • 迅速归纳出规则,达成完整的动态泛化
  • 应对无法预知的未来任务

5.2 Meta-RL:上下文中的策略适应

Meta-RL训练对比

图:RL与Meta-RL训练过程的对比(LAMER框架)——从独立学习到上下文适应的范式转变。

图解说明

上半部分 - 传统RL训练

  • 对单个任务独立生成一组轨迹(Trajectory)
  • 各Episode之间没有关联
  • Agent在每个Episode中独立行动,无法利用历史经验

下半部分 - Meta-RL训练(LAMER框架)

  • 轨迹按顺序生成
  • 每个Episode后都有Reflection(反思)阶段
  • 通过上下文适应策略
  • 关键创新:轨迹折扣因子 γ i , j \gamma_{i,j} γi,j 用于跨Episode的信用分配,使模型能够学习"如何学习"

关于模型是否具有隐式元学习能力,学术界存在长期争论:

观点 支持证据 代表研究
ICL是隐式梯度下降 注意力机制数学形式类似GD Anthropic、DeepMind
ICL只是模板匹配 只激活预训练知识,非真正学习 多项实证研究

LAMER框架的创新:通过Meta-RL让模型在上下文中进行策略适应,每个Episode后进行自我反思,形成新策略。这不是简单的模板匹配,而是真正的策略更新。

5.3 TTC与元学习:密集奖励的MRT方法

MRT密集奖励方法

图:Meta Reinforcement Fine-Tuning (MRT) 的密集奖励机制——让模型学会"如何思考"。

图解说明

上半部分 - Outcome Reward(结果奖励)

  • 传统方法只在推理结束时给出结果奖励(r=1或r=0)
  • 问题:很多"走了弯路但碰巧成功"的轨迹被强化

下半部分 - MRT的密集奖励

  • 将思维链分割为多个"Episode"
  • 在每个节点计算进度奖励:r=0.4 → r=0.6 → r=… → r=0.7 → r=1
  • 同时也能识别错误路径:r=0.4 → r=0.3 → r=0.3 → r=0.2 → r=0
  • 实现累积遗憾最小化

TTC的到来为隐式元学习提供了新可能。卡耐基梅隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》提出:

模型在推理时生成的长CoT,本质上是一个Agent在思维空间里探索最优路径。

累积遗憾最小化(Cumulative Regret)策略

  • 如果模型多思考了很多步,但答案置信度没有提升,这就是"遗憾"
  • 通过RL引导模型减小遗憾发生的可能
  • 让模型知道"遇到这种难度的题,应该调用多少算力、尝试几条路径"

这就是学习如何思考的元学习。

5.4 DiscoRL:AI自主发现学习算法

DiscoRL元优化循环

图:DeepMind发表在Nature上的DiscoRL的元优化循环——AI自主发现学习算法的里程碑。

图解说明

双闭环架构

循环 执行者 功能 输出
内部循环(Trajectory) Agent 在游戏环境中试错,生成轨迹 Update trajectories
外部循环(Meta-optimisation) Meta-network 观察轨迹表现,通过反向传播更新自身参数 Improved meta-network

Discovery(发现)过程

  • Meta-network不断优化自己的教学策略
  • 产出改进的元网络,用于指导下一轮Agent训练
  • 形成持续进化的闭环

DeepMind的DiscoRL是2025年元学习领域最惊人的突破,发表在Nature上。

双闭环架构

内部循环:Agent在Atari等游戏环境中试错
        ↓
外部循环:Meta-network通过反向传播观察学生表现
        ↓
        不断修正教学策略(更新学习算法的参数)

惊人发现

  1. AI自主发现了策略转变:从"奖励最大化"转向"未来预测"
  2. 预测集中在关键时刻:重大事件(Aha moment)和改变方向之前
  3. 重新发现自举法:教师独立"重新发现"了RL中的Bootstrap方法
  4. Disco57算法击败人类设计:超越包括MuZero在内的顶级算法
  5. 惊人的泛化能力:在未见过的ProcGen和NetHack中依然表现出色

这证明了:AI可以通过递归抽象从纯粹经验中真正学习到"应该如何去探索"。

5.5 中训练:探索+反思

中训练的两种方法

图:Meta论文《Agent Learning via Early Experience》提出的两种"中训练"方法——在预训练和RL之间增加主动探索阶段。

图解说明

图中展示了Expert Trajectory(专家轨迹)的处理流程,包含状态序列 s 1 → s 2 → . . . → s n s_1 \to s_2 \to ... \to s_n s1s2...sn 和对应的动作 u 1 , u 2 , . . . , u n u_1, u_2, ..., u_n u1,u2,...,un

左侧 - Implicit World Modeling(隐式世界建模)

  • Stage 1: World Modeling:在专家轨迹的每一步尝试备选动作 a 1 , a 2 , . . . a_1, a_2, ... a1,a2,...
  • 预测下一状态: P ( s ′ ∣ s , a ) P(s'|s, a) P(ss,a)
  • Stage 2: Continual Training:训练策略内化转移动态 P ( a ∣ s ) P(a|s) P(as)

右侧 - Self-Reflection(自反思)

  • Stage 1: Data Construction:生成自己的经验,与专家动作对比
  • 添加解释 e i e_i ei:反思"为什么专家做得好,我做的不好"
  • 训练策略学会推理和修正自己的决策

Meta的《Agent Learning via Early Experience》提出在预训练和RL之间增加**"中训练"阶段**:

预训练:死记硬背专家操作(被动学习)
        ↓
中训练:自己瞎折腾 + 反思(主动探索)
        ↓
RL:稀缺奖励下的摸爬滚打(目标导向)

具体操作

  1. 在专家演示的每一步,强制AI尝试几种不同的"备选动作"
  2. 记录这些动作会让环境变成什么样
  3. 对"为什么专家做得好,我做的不好"进行反思

效果:WebShop、ALFWorld成功率平均提升9.6%,泛化能力大幅增强。

核心洞察:这些方法都掌握了一个共性——“想有效探索,必须建立起一个对世界的预测”。这与Google《General Agents Need World Models》的结论不谋而合。

5.6 神经科学的启示:大脑的组合任务机制

大脑的组合任务机制

图:Nature论文《Building compositional tasks with shared neural subspaces》的核心发现——大脑如何通过"动态路由"执行新任务。

图解说明

图中展示了大脑如何通过结构化、正交化的神经子空间来处理组合任务:

实验设计

  • Train on C1:训练颜色分类器(Classify colour)
  • Train on St:训练响应方向分类器(Classify response direction)
  • Test on C2:测试在新组合任务上的泛化能力

关键发现

  • Generalized colour category classifier:颜色类别分类器可以泛化
  • Generalized response direction classifier:响应方向分类器可以泛化
  • 大脑执行新任务不是靠修改神经元连接,而是靠"动态路由"机制重新连线不同神经子空间

2025年的神经科学研究让我们更理解人类是如何进行学习的:

  • 大脑内部存在着结构化、正交化的神经子空间
  • 这些子空间将"颜色"、“形状”、"动作"等概念从混沌的电信号中剥离出来,形成独立的、可复用的模块
  • 执行新任务不是靠修改神经元连接(长出新脑细胞),而是靠"动态路由"机制重新连线

这启发了2025年涌现的很多对模型进行分区的尝试,包括记忆分区、快慢反应分区等。


六、工程优化:让智能更快更便宜

6.1 合成数据的突破:质量胜于数量

数据质量与推理效率

图:芝加哥大学Select2Reason实验的核心发现——“数据在精不在多”。

图解说明

  • 横轴:模型输出的平均token长度(Average length of output tokens)
  • 纵轴:AIME 25测试的准确率(Accuracy)
  • 数据点:不同数据筛选策略训练的模型

关键发现

数据策略 数据量 准确率 输出长度
Random-2% 2% ~0.25 ~10000
Diverse-2% 2% ~0.25 ~10000
Select2Reason-10% 10% ~0.50 ~13000
R1-DistillQwen 100% ~0.55 ~14000

结论:仅筛选前10%推理路径最长、最复杂的样本(Select2Reason-10%)进行训练,效果就匹配甚至超越全量数据集。这证明了长COT合成数据是翻越数据墙的最有希望方式。

问题 解决方案 关键论文
数据枯竭 长COT合成数据 DeepSeek R1
Model Collapse 自我验证过滤 NeurIPS 2025
多样性丧失 生产知识空白区 LLM-as-a-Judge

Model Collapse的解决:南洋科技大学在NeurIPS 2025的论文中建立了自我验证机制:

  • 生成合成数据后,模型计算内部置信度分数
  • 低于阈值的数据被丢弃
  • 只要模型校准误差在一定界限内,可以在完全合成数据体制下持续训练

6.2 蒸馏技术的进化

MoE蒸馏:让每个专家都发挥作用

MoE蒸馏方法

图:《Every Expert Matters》提出的MoE特化蒸馏方案——让学生接触"暗知识"。

图解说明

左侧(a) - Knowledge Augmentation(知识增强)

  • 传统方法:只选择Top-K专家,忽略其他专家的知识
  • 新方法:通过两种策略增强知识多样性
    • 选择Top N-1专家:保留次优专家的知识
    • 基于门控概率采样N-1专家:随机探索不同专家组合
  • 重复M次:增强多样化知识覆盖

右侧(b) - Student-Aware Router(学生感知路由)

  • 在蒸馏前用学生反馈训练路由网络
  • 让路由决策考虑学生模型的接受能力

传统蒸馏忽略了Non-activated Experts所蕴含的知识。新方法通过多次采样或强制激活策略,让学生模型学习到不同专家对同一问题的不同视角。

长COT蒸馏:Merge-of-Thought

Merge-of-Thought蒸馏

图:Merge-of-Thought (MoT) 蒸馏框架的工作流程——通过共识去噪提取多教师的"公约数"。

图解说明

整体流程

  1. Candidate Teachers:多个候选教师模型
  2. Seed Problem:种子问题作为输入
  3. Distill:各教师基于种子问题生成蒸馏数据集

迭代MoT算法

步骤 操作 目的
Step 1: Branch Training 从当前合并学生初始化K个分支,各自在教师数据上训练 学习不同教师的推理风格
Step 2: Weight Merge 平均分支参数得到聚合模型 θ ( t ) \theta^{(t)} θ(t) 提取共识推理逻辑
Step 3: Next-round Initialization θ ( t ) \theta^{(t)} θ(t) 作为下一轮基础 迭代优化

**Merge-of-Thought(MoT)**通过共识去噪,提取多个教师的"公约数"推理逻辑:

  • 不同教师的表达各异,但核心推理逻辑相似
  • 在高维参数空间中提取所有教师的"公约数"
  • 避免长序列推理的误差累积

6.3 注意力机制的变革

Kimi Linear的突破

Kimi Linear架构

图:Kimi Linear的混合架构设计——线性注意力从备胎转为主力。

图解说明

图中展示了Kimi Linear的核心设计理念:

  • 3:1混合架构:3层线性注意力穿插1层MLA
  • token处理流程:每个token经过线性注意力层处理,定期通过MLA层进行全局信息整合
  • MoE集成:结合混合专家架构进一步提升效率

MLA(Multi-Head Latent Attention)的普及

DeepSeek V3采用的MLA架构,通过低秩联合压缩技术:

模型 每token KV Cache
DeepSeek-V3 (MLA) 70.272KB
Qwen-2.5 72B (GQA) 327.680KB
LLaMA-3.1 405B 516.096KB

Kimi Linear的关键突破

指标 性能
架构 3:1混合(3层线性 + 1层MLA)
KV缓存节省 75%
RULER测试(1M上下文) 94.8分
吞吐量提升 全注意力的6.3倍
位置编码 无需RoPE,内在学习位置信息
连续概念空间:CALM

CALM连续自回归

图:腾讯CALM(Continuous Autoregressive Language Models)的核心创新——从token预测到向量预测。

图解说明

左侧 - Conventional LM(传统语言模型)

  • 序列长度 = T
  • 逐token预测:每次生成一个离散token

右侧 - CALM(连续自回归语言模型)

  • 序列长度 = T/K(压缩K倍)
  • 逐向量预测:每次生成一个连续向量

Autoencoder(自编码器)

  • 将K个token(如K=3)压缩为1个连续向量
  • 从根本上提升计算效率

Meta的LCM(Large Concept Models)和腾讯的CALM将多个Token压缩为连续向量:

  • 从"预测下一个词"转变为"预测下一个概念向量"
  • 一次推理步骤生成相当于原来4倍的信息量

七、2026展望:三大确定性方向

7.1 记忆的工程化落地

从理论到产品的周期约2年。以TTC革命为例,2024年末的GPT o1实际上在2022年左右已在Ilya脑海中成型。

2025年,三条记忆路径(RAG、微调、架构)都已小规模验证。2026年有望:

  • 成为主流模型的标配
  • 在一个成功架构(如DeepSeek R1)的推动下完成范式转换
  • 让Mem0、Second Me等记忆系统有更好的落地体验

7.2 混合架构的成熟

分层推理架构

图:分层推理架构的实验验证——小样本学习超越长思维链预训练模型。

图解说明

图中展示了在四个任务上的对比实验:

任务 训练样本数 对比方法
ARC-AGI-1 960 Chain-of-thought vs Direct prediction
ARC-AGI-2 1120 预训练LM vs 小样本学习
Sudoku-Extreme (9x9) 1000 -
Maze-Hard (30x30) 1000 -

架构设计

  • Meta representation(元表征):高层抽象表示
  • Lower-level representation(底层表征):具体特征表示
  • Gross Frequency Coupling Output(频率耦合输出):不同层级的信息整合

关键发现:通过分层设计,小样本学习可以超越长思维链预训练模型的效果。

分区、分层、多功能层的趋势将加速:

未来架构 = 记忆层(Titans) + 推理层 + 快速反应层

这种混合架构更符合人脑运作模式,可能随着神经科学和符号主义的回潮产生更多尝试。

7.3 自进化的早期探索

AlphaEvolve程序进化框架

图:Google DeepMind的AlphaEvolve程序进化框架——AI发现优于人类设计的算法。

图解说明

输入(科学家/工程师提供)

  • Initial program(初始程序)
  • Prompt template(提示模板)
  • Evaluation code(评估代码)
  • Components to evolve(待进化组件)

分布式控制器循环

parent_program, inspirations = database.sample()  # 从程序数据库采样
prompt = prompt_sampler.build(parent_program, inspirations)  # 构建提示
diff = llm.generate(prompt)  # LLM集成生成差异
child_program = apply_diff(parent_program, diff)  # 应用差异产生子程序
results = evaluator.execute(child_program)  # 评估器验证正确性和效率
database.add(child_program, results)  # 优秀程序入库

LLM集成

  • Gemini Flash:追求速度
  • Gemini Pro:追求深度

AlphaEvolve已经证明AI可以发现优于人类设计的算法:

  • 解决了300年历史的"亲吻数问题"
  • 改进了1969年的经典Strassen矩阵乘法算法
  • 仅用48次标量乘法完成4x4复杂矩阵乘法

但真正的自进化还需要记忆、合成数据、元学习三者的深度融合。2026年,这个方向必然会产生更多可能性。


总结:从"暴力美学"到"精细工程"

2025年的AI发展可以用一句话概括:

模型不仅要博学,更要懂思考、能记住、会学习。

能力 关键突破 技术路径 核心论文
思考 Test-Time Compute RLVR + GRPO ScaleRL, DeepSeek R1
记住 参数内化记忆 Titans + Nested Learning Titans, MIRAS
学习 元学习 DiscoRL + 中训练 DiscoRL (Nature)
理解世界 空间智能 World Models + V-JEPA Genie 3, V-JEPA 2

2026年,这些技术将从实验室走向产品,真正改变我们与AI交互的方式。

最后的思考

正如论文中引用的爱因斯坦名言:

“我们无法用创造问题时的思维来解决问题。”

2025年的技术突破正是这种思维转变的体现——不再是简单地堆砌参数,而是从根本上重新思考机器学习模型应该如何设计。


参考论文

TTC革命

记忆能力

空间智能

元学习

工程优化


本文基于对2025年100+篇顶会论文的系统梳理,力求以专业视角呈现AI技术的真实进展。如有疏漏,欢迎指正。

如果觉得有帮助,欢迎点赞、转发、在看三连!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐