人类智能的核心是从经验中提取解决方案,而非每次重新学习。现有大语言模型虽强大,却难以实现“用得越多越聪明”的自我进化。本文提出的MEMRL框架通过在情景记忆上进行非参数强化学习,让agent在运行时持续自我进化,同时保持预训练模型参数冻结。它通过结构化的意图-经验-效用三元组组织记忆,并采用两阶段检索机制平衡探索与利用。实验证明,MEMRL在多个基准测试中显著优于现有方法,尤其在探索密集型任务中表现突出。该框架为解决大模型稳定性与可塑性两难问题提供了新思路,是程序员学习大模型进化的宝贵资源。

核心问题:稳定性与可塑性的两难

论文指出,现有方法面临一个根本性矛盾:一方面,微调方法试图通过修改模型权重来内化经验,但往往遭受灾难性遗忘和高计算成本;另一方面,RAG(Retrieval-Augmented Generation,检索增强生成)提供了非参数替代方案,但本质上是被动的——它仅基于语义相似度检索信息,无法评估实际效用。

缺乏区分高价值策略与相似噪声的机制,当前RAG agent难以从运行时反馈中有效学习以优化长期性能。

论文提出的核心研究问题是:如何让agent在部署后持续提升性能,同时不损害预训练骨干模型的稳定性?

[Figure 2: MEMRL概念框架] 论文展示了MEMRL的核心设计理念:将冻结的LLM(Large Language Model,大语言模型)的稳定认知推理与动态情景记忆显式解耦,实现稳定性与可塑性的平衡。

MEMRL方案:意图-经验-效用三元组

论文借鉴人类认知中的建构性情景模拟机制,将记忆组织为结构化的意图-经验-效用三元组。每条记忆包含三个要素:意图嵌入(查询的向量表示)、原始经验(成功的解决方案轨迹)、以及学习到的效用值(Q值)。

这种结构将检索从被动的语义匹配任务转变为主动的决策过程。

两阶段检索机制

论文设计了两阶段检索策略,将语义召回与价值感知选择解耦:

(1) 相似度召回阶段:给定当前查询状态,首先通过余弦相似度筛选出语义一致的候选池,确保检索的上下文相关性。如果候选池为空,MEMRL不注入任何记忆,完全依赖冻结的LLM进行更广泛的探索。

(2) 价值感知选择阶段:从候选池中选择最优上下文时,论文引入了综合评分函数,平衡探索(语义匹配)与利用(高效用历史)。评分公式为:score = (1-λ)·归一化相似度 + λ·归一化Q值,其中λ∈[0,1]调节权衡。最终上下文由得分最高的k2个条目组成。

[Figure 4: MEMRL框架概览] 论文展示了完整的端到端学习循环:给定查询s,agent从记忆M中检索上下文m_ctx,生成输出y,并基于奖励R更新记忆价值Q。底部展示了两阶段检索和效用更新的具体流程。

运行时效用更新

MEMRL的核心是基于环境反馈持续优化Q值。任务完成后,agent接收环境奖励信号(如执行成功、用户反馈或任务分数),使用蒙特卡洛风格规则更新实际注入上下文的记忆效用:Q_new ← Q_old + α[r - Q_old]。

这种更新驱动Q值向使用该经验的经验期望回报收敛。同时,对于每条采样轨迹,论文使用LLM总结经验并作为新三元组写回记忆库,实现经验的持续扩展而无需改变LLM参数。

[Figure 3: 记忆增强决策的马尔可夫决策过程示例] 论文展示了记忆检索如何实现跨意图的知识复用:在时间步t+1,意图A检索相关经验但生成失败,意图B成功并将经验存入记忆;在时间步t+2,意图A检索到意图B新存储的成功经验,从而获得成功结果。

实验效果:探索密集型任务提升显著

论文在四个多样化基准上验证MEMRL:BigCodeBench(代码生成)、ALFWorld(具身导航)、Lifelong Agent Bench(操作系统/数据库交互)和HLE(Humanity’s Last Exam,多学科复杂推理)。

[Figure 1: MEMRL基准运行时学习性能] 论文将MEMRL与最先进的记忆基线(MemP)和标准检索方法(RAG)进行比较,MEMRL在各基准上持续优于各种基线。

运行时学习结果

在10个训练轮次的实验中,MEMRL在所有领域持续优于所有基线。价值感知检索的优势在探索密集型环境中最为显著:

在ALFWorld中,MEMRL达到最终轮次准确率0.507,相比MemP(0.324)相对提升约56%,相比无记忆基线(0.278)提升82%。累积成功率(CSR)达到0.697,表明强化学习组件有效鼓励agent探索并发现复杂任务的解决方案。

在HLE知识前沿基准中,MEMRL将最终准确率提升至0.573(MemP为0.528),CSR甚至达到惊人的61.3%。

[Table 1: 运行时学习主要结果] 论文报告了各方法在10轮训练后的最终轮次准确率和累积成功率。MEMRL在BigCodeBench、Lifelong Agent Bench、ALFWorld和HLE上均取得最佳表现。

迁移学习结果

论文通过冻结训练后的记忆库并在保留测试集(30%划分)上测试来评估记忆可迁移性。MEMRL展现出优越的泛化能力:在BigCodeBench上达到最高准确率0.508;在操作系统控制任务中达到0.746;在ALFWorld中达到0.479,明显优于MemP(0.421)和RAG(0.336)。

[Table 2: 迁移学习结果] 论文展示了MEMRL在BigCodeBench、Lifelong Agent Bench和ALFWorld上的迁移性能,验证了价值感知检索机制不仅不会过拟合训练实例,还能保留高效用经验以促进泛化。

深度分析:Q值的预测能力

论文分析发现,学习到的Q值与任务成功率之间存在强正相关(Pearson r=0.861)。成功率从最低置信度区间的21.5%增加到最高区间的88.1%,表明Critic能够有效按记忆导致任务成功的可能性进行排序。

[Figure 8: Q值分析] 论文展示了(a)成功率与Q值范围的关系,Pearson r=0.861确认了Critic的预测能力;(b)记忆组成分析显示,高Q区间中约12%的"失败"记忆实际上具有潜在战略价值。

有趣的是,即使在高Q区间(0.9-1.0),agent仍保留约12%标记为"失败"的记忆。论文发现这些高Q失败记忆往往是"近失误"——轨迹大体正确但因局部小错误失败。这些记忆编码了可迁移的纠正性启发,当在后续回合中被检索时,能够支持完美的下游结果。

[Table 3: 任务结构的影响] 论文比较了多步任务与单步任务的累积成功率增益:ALFWorld(多步)增益+24.1个百分点,OS任务(多步)+7.4个百分点,而HLE(单步)+3.1个百分点,BigCodeBench(单步)+2.5个百分点。

稳定性保证

论文从强化学习角度分析了MEMRL的稳定性。在固定推理策略和固定任务分布的假设下,论文证明了效用估计以指数速率收敛到期望值,且方差保持有界。这意味着恒定步长更新不会导致无界振荡,而是产生稳定的效用估计。

[Figure 10: HLE中的遗忘率] 论文展示了MEMRL相比MemP和无归一化/相似度门控的消融版本,在多轮训练中保持更低的遗忘率。

MEMRL通过将可塑性从参数空间转移到外部记忆结构,实现了稳定性与可塑性的平衡——冻结的LLM保持稳定的认知推理,而演化的记忆效用提供持续适应的可塑通道。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐