人工智能(AI)取得了惊人的飞跃,由GPT-4等大型语言模型(LLMs)驱动的新一代"AI代理"已经出现。这些代理能够推理、规划和使用工具,执行从软件工程到科学发现等复杂任务。然而,尽管它们能力强大,却存在一个根本缺陷:它们极度健忘。LLM的知识在其训练完成时就被冻结,无法快速更新。这使其成为一个静态的文本生成器,而非能够从交互中学习的动态实体。

这种"失忆"不仅仅是一个技术限制,更是进步的关键障碍。试想那些需要持久性和适应性的应用:

  • 能记住您的偏好和过往对话的个性化聊天机器人
  • 能随时间推移学习您品味的推荐系统
  • 科学研究或金融调查等领域的长周期问题解决,这些任务依赖于跨多个步骤积累信息。

没有记忆,代理就困于永恒的当下,无法维持连贯的身份,无法从错误中学习,也无法在过去的成功基础上继续发展。通过环境互动实现持续进化的能力——这是真正智能的基石——根本上依赖于代理记忆。 解决这种健忘性不仅仅是一次升级,更是构建更强大、更可靠、更真正智能的代理的必要步骤。

AI记忆的新蓝图:形式、功能与动态

代理记忆领域正在以惊人的速度扩展,但这种快速增长导致了碎片化。研究人员常常对相似的概念使用不同的术语,而像"短期"与"长期"记忆这样的传统分类法已不足以捕捉现代系统的复杂性。这种概念上的迷雾使得比较不同方法和理解其基本运作原理变得困难。

为了厘清这一局面,研究论文提出了一个全新的、统一的理解代理记忆的框架。该框架通过三个相互关联的视角来审视记忆:形式、功能和动态。如图1所示,这个"形式-功能-动态"三角为设计和分析AI记忆系统提供了一个全面的蓝图。

  • 形式: 记忆采用何种架构或表征形态?这关注什么承载了记忆,从显式的文本文件到模型权重中的隐式模式。
  • 功能: 记忆服务于何种目的?这解决了为什么的问题,区分了用于事实、技能和即时推理的记忆。
  • 动态: 记忆如何运作和演化?这探索了如何——记忆从创建到使用再到最终优化或处置的生命周期。

通过从这三个维度剖析记忆,我们可以超越松散的术语,对如何创建能够记忆、学习和适应的代理建立起更有原则性的理解。

构建模块:从词元级到潜在记忆

代理记忆的"形式"——其底层架构——决定了其核心能力,从信息存储方式到访问方式。当今AI代理主要有三种记忆形式。

词元级记忆

这是最常见和最直观的记忆形式,信息作为显式的、离散的单元存储在模型本身之外。这些单元可以是文本、图像或其他数据块,它们可检查、可编辑且易于解释。可以将其视为代理的外部硬盘。这种记忆的组织方式至关重要,通常分为三类:

  • 扁平记忆(1D): 信息以简单的列表或单元"包"形式存储,如对话日志或经验轨迹。它简单且可扩展,但缺乏关系结构。
  • 平面记忆(2D): 单元在单层结构中组织,具有明确的关系,例如知识图谱或树状结构。这允许更复杂、结构化的推理。
  • 分层记忆(3D): 这是最复杂的形式,跨多个抽象层组织信息。例如,原始文档可能构成基础层,经过总结的问答对位于中间层,而高层主题洞察则位于顶层。这使得能够进行精细到粗粒度的复杂检索。
参数记忆

在这里,记忆被直接编码到AI自身的模型参数中——即其权重和偏置。这类似于人类如何内化知识直至其成为本能。访问是隐式的;记忆在模型的标准前向计算过程中影响其输出。

  • 内部参数记忆: 这涉及直接修改基础模型的原始参数,通常通过微调或模型编辑技术(如ROME和MEND)实现。虽然强大,但成本可能高昂,并且存在"灾难性遗忘"的风险,即新知识覆盖旧知识。
  • 外部参数记忆: 为了避免改变基础模型,这种方法使用辅助模块,如LoRA适配器或轻量级代理模型。这些附加参数承载新记忆,可以被添加、移除或混合,在适应性和稳定性之间取得平衡。这些方法的概述见表2
潜在记忆

潜在记忆作为隐式的、连续的表示存在于模型的内部隐藏状态中(例如,激活、嵌入或KV缓存)。它是机器原生的、词元高效的,并且非常适合融合来自多模态的信息。如图4所示,这种记忆不是人类可读的,但可以通过三种主要方式集成到代理的处理中:

  • 生成: 一个辅助模型生成新的潜在嵌入,以总结长上下文或多模态输入。
  • 重用: 代理直接重用先前计算中的内部状态,最显著的是KV缓存,以在多个轮次中保存信息而无需重新处理。
  • 变换: 对现有的潜在状态进行压缩、修剪或重构,以创建更紧凑、信息密度更高的表示,在保真度和效率之间取得平衡。

选择正确的记忆形式是一个关键的设计决策,反映了可解释性、更新速度和集成深度之间的权衡。

超越存储:事实性、经验性和工作记忆的目的

没有目的的存储信息毫无意义。记忆的"功能"回答了这个问题:代理为什么需要记住?超越简单的短期和长期时间划分,我们可以根据记忆在代理认知架构中的作用对其进行分类,详见图6

事实性记忆

这是代理的陈述性知识库——存储它"知道"的事物。它存储显式的、可验证的事实,以确保代理的交互是一致的、连贯的和可适应的。

  • 用户事实性记忆捕获用户特定的细节,如偏好、身份和历史承诺,从而实现个性化响应。
  • 环境事实性记忆跟踪外部世界的状态,例如文档内容、工具的可用性或多代理协作的状态。

事实性记忆将代理从一个非人格化的机器转变为一个一致且具有上下文意识的伙伴。

经验性记忆

这是代理的程序性和策略性知识,封装了它从过去经验中"学到"的东西。它是持续学习和自我进化的引擎,允许代理通过从成功和失败中抽象出经验来随时间改进。经验的不同抽象层次如图7所示。

  • 基于案例的记忆存储过去事件的原始或最小化处理的轨迹,作为直接回放或模仿的具体示例。
  • 基于策略的记忆从过去任务中提炼出高层次的洞察、推理模式或工作流程。这些充当认知模板以指导未来的规划。
  • 基于技能的记忆将策略操作化为可执行的程序,如代码片段或API调用。这构成了代理关于其"能做什么"的活跃工具箱。
工作记忆

这是代理动态控制的、容量有限的"此时此地"的暂存器。它不用于长期存储,而是用于在单个任务或会话期间主动管理和操作信息。它回答了这个问题:"代理此刻正在思考什么?"诸如状态整合和分层折叠等机制允许代理管理长的交互历史而不会被淹没,将被动上下文窗口转变为主动的、抗干扰的工作空间。

这三个功能系统形成了一个相互连接的认知循环,使代理能够从过去学习(经验性)、了解事实(事实性)并在当下进行推理(工作性)。

AI记忆的生命周期:形成、演化与检索

记忆不是一个静态对象;它是一个具有动态生命周期的生命系统。这个生命周期,总结在图8中,包含三个核心过程,决定了记忆如何运作和演化。

1. 记忆形成

这是将原始经验编码为紧凑、有用知识的过程。代理不是简单地记录所有内容,而必须有选择地提炼具有未来效用的信息。这正式表示为 ,其中形成操作符 处理新的信息构件 。关键的成形操作,详见表7,包括:

  • 语义摘要: 为长文本或对话创建高层次摘要。
  • 知识蒸馏: 提取特定事实或策略洞察。
  • 结构化构建: 将信息组织成图或树。
  • 潜在表征: 将经验编码为密集向量嵌入。
  • 参数内化: 将知识融合到模型的权重中。
2. 记忆演化

一旦形成,新记忆必须被整合到现有的记忆库中。这个演化过程 确保记忆保持连贯、高效和最新。如图9所示,演化涉及三个关键机制:

  • 巩固: 合并相关的记忆条目以形成更通用的洞察并减少冗余。
  • 更新: 解决新旧信息之间的冲突以保持事实准确性。
  • 遗忘: 修剪过时、无关或低价值的记忆以释放容量并提高检索效率。
3. 记忆检索

记忆只有在正确的时间能够被访问时才有用。检索过程 查找并提供相关信息以指导代理的当前行动。一个健壮的检索流程,涉及四个步骤:

  • 时机与意图: 决定何时检索记忆以及查询哪个记忆存储。
  • 查询构建: 将代理的当前上下文转换为有效的搜索查询。
  • 检索策略: 使用基于词汇、语义或图的方法执行搜索。
  • 检索后处理: 对检索结果进行重新排序、过滤和压缩,形成简洁连贯的提示。

共同地,形成、演化和检索创造了一个连续的循环,使代理能够动态地学习、适应环境并与之互动。

代理记忆的未来:新兴研究前沿

代理记忆的研究正在迅速发展,超越了简单的存储和检索,朝着更动态、更智能的系统迈进。几个关键前沿领域正在浮现,它们将塑造下一代记忆增强型代理。

从检索到生成

范式正在从仅仅检索静态的、预格式化的记忆,转向动态地生成新的记忆表征。未来的代理不仅仅是调出存储的文档,而是会合成一个为当前上下文完美优化的、定制化的记忆——一份摘要、一个反思、一个计划。这种生成方法有望实现更具适应性、上下文感知性和高效性的记忆使用。

自动化与自优化记忆

早期的记忆系统依赖于手工制作的启发式规则进行管理。未来在于自动化记忆管理,即代理学习控制自己的记忆。这包括能够随时间适应其拓扑结构的自组织记忆结构,以及使用强化学习(RL)来优化记忆生命周期的每个方面,从形成到遗忘。如图11所示,该领域正从无RL系统向完全RL驱动的架构发展,其中记忆是代理策略中一个可学习的、共同演化的组成部分。

多模态与共享记忆

现实世界的交互本质上是多模态的。未来的代理将需要能够无缝存储和推理文本、图像、音频及其他感官数据,并具有统一表征的全模态记忆系统。此外,随着我们迈向多代理系统,共享记忆将变得至关重要。这超越了简单的共享数据库,而是一种主动管理的集体表征,支持联合注意力、基于角色的访问控制和涌现的团队级智能。

可信记忆

随着代理存储更多个人化和持久化的信息,信任变得至关重要。可信记忆必须建立在三大支柱之上:隐私性、可解释性和鲁棒性。 这需要架构创新,如细粒度访问控制、用户管理的保留策略和联邦学习。对于可解释性,我们需要能够追踪记忆使用及其对代理决策影响的工具。为确保鲁棒性,记忆系统必须能够检测和解决冲突,防止检索过时信息,并通过将输出基于可验证的事实来减少幻觉。

受人类认知的启发,终极前沿可能是创建具有生成式重构能力的代理,其中记忆不是对过去的回放,而是对其主动的、动态的重构——就像我们自己的记忆一样。通过整合类似于生物"离线巩固"睡眠的机制,我们有朝一日或许能构建出不仅仅是使用记忆,而是真正内化经验的代理。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐