MemAgent颠覆传统！多轮对话强化学习记忆智能体，彻底解决大模型长上下文遗忘难题！

尽管在长度外推、注意力机制优化以及记忆模块方面已有诸多改进，但在外推过程中保持性能不下降的前提下，以线性复杂度处理无限长文档，仍然是长文本处理领域的终极挑战。

大靠山

779人浏览 · 2025-08-26 20:34:05

大靠山 · 2025-08-26 20:34:05 发布

摘要：

我们以端到端方式直接针对长文本任务进行优化，并引入了一种新颖的智能体工作流——MemAgent，该智能体以分段方式读取文本，并通过覆写策略更新记忆。我们扩展了 DAPO 算法，以支持基于上下文独立的多轮对话生成训练流程。MemAgent 展现出卓越的长上下文处理能力，能够从在 32K 文本上训练的 8K 上下文外推至 350 万字的问答任务，且性能损失低于 5%，并在 512K 的 RULER 测试中取得超过 95% 的准确率。

项目主页: https://memagent-sialab.github.io/

图 1：RULER-HotpotQA 的准确率得分。即便是采用长上下文持续预训练和外推技术的模型，也无法维持一致的性能表现。相比之下，结合强化学习的 MemAgent 展现出几乎无损的性能外推能力。

1 引言

尽管大型语言模型（LLM）系统已展现出令人印象深刻的能力 [3–7]，但在工业级应用中仍面临一个关键挑战：如何有效处理长上下文—— 例如处理整本书籍、执行多步复杂推理链，或管理智能体系统的长期记忆—— 这些复杂任务会生成大量文本，迅速超出当前 LLM 的典型上下文窗口大小。

现有的长上下文处理方法主要分为三类：

第一类是长度外推方法，通过移动位置嵌入来扩展模型的上下文窗口 [11–15]，并辅以持续预训练 [16–18]。尽管这些方法具有潜力，但在处理极长文本时，由于计算复杂度为 O(n^2)，常常导致性能下降和处理速度缓慢。

第二类方法利用稀疏注意力机制 [19–21] 和线性注意力机制 [22, 23]，以降低注意力计算复杂度，从而更高效地处理长序列。然而，这通常需要从头开始训练，并面临固有挑战，例如线性注意力难以并行训练，而稀疏注意力则依赖人工定义的模式。

第三类研究方向是上下文压缩 [24–27]，旨在通过 token 级压缩或外部记忆插件模块来浓缩信息。但这类方法在外推方面常常表现不佳，且需要集成额外模块或上下文操作，不可避免地干扰标准生成流程，影响兼容性和并行性。

因此，一个具备强大长上下文能力的 LLM 必须同时满足三项要求： 1）能够处理无限长度的文本； 2）在扩展时不出现性能下降； 3）推理过程具备线性时间复杂度。

为实现这一目标，我们回归长上下文建模的基本直觉 [28–31]：当人类处理长文本信息时，往往会抽象出主要的关键概念以把握全文要义，通常通过记录关键细节或使用速记方式来提取重点，同时舍弃冗余和无关的信息。我们并不试图记住每一个事实或细节，而是将认知资源集中于当前任务中更重要的部分。这种选择性注意不仅简化了处理过程，也有助于更高效地解决复杂问题。

遵循这种以人为本的直觉，我们提出了一种新颖的强化学习（RL）应用方式，用于赋予 LLM 一个可动态更新的固定长度“记忆”，如图 2 所示。

在推理过程中，LLM 按段处理输入文本。每读取一个段落，模型就主动且有选择地更新记忆，这些记忆随后被聚合并协同用于生成最终输出。

这一巧妙机制使得 LLM 能够灵活处理任意长度的文本，同时在处理过程中保持线性时间复杂度，因为记忆长度是固定的，从而使模型的上下文窗口大小保持不变。

这种基于段落的处理方式会从一个长文本输入中生成多个中间输出，需要多轮记忆更新，以及最后一轮用于生成最终响应。

训练这种智能体工作流——即支持多个上下文独立对话的机制—— 在当前 LLM 研究中仍属未被充分探索的领域。

现有系统通常通过交替调用工具或环境反馈来处理工作流轨迹，要么简单拼接 [32, 33]，要么使用滑动窗口方法 [34]，但这些方式在实际应用中缺乏灵活性和可扩展性。

而我们的 MemAgent 方法则提出：将每个上下文独立的对话视为一个优化目标。基于 DAPO [35] 算法，我们实现了 Multi-Conv DAPO，用于通过可验证的结果奖励来优化任意智能体工作流。

在我们的实验中，一个通过 RL 训练的模型，具备 8K 的上下文窗口（含 1024-token 的记忆和 5000-token 的文档段落），在 32K 文档上训练后，在处理多达 400 万 token 的问答任务时，表现出持续卓越的能力，无性能下降，且计算成本保持线性。

这清晰地展示了我们长上下文记忆方法的高效性与可扩展性。

我们的主要贡献包括三点：

• 我们提出了一种新方法，使 LLM 能够在推理过程中以线性时间复杂度处理任意长度的输入，从而突破了长文本处理中的关键瓶颈。

图 2：MemAgent 的灵感来源于人类处理长文档的方式。它将文档划分为多个片段，并允许大语言模型（LLM）以迭代方式处理这些片段，在记忆中记录相关信息。最终，LLM 根据存储在记忆中的信息生成答案。

• 我们设计了一套智能体工作流以实现这一机制，并提出了一种基于多轮对话 DAPO 算法的端到端训练方法。

• 我们通过实证展示，强化学习训练的模型能够在几乎无性能损失的情况下外推至极长文档，推动当前长上下文 LLM 系统的能力边界。

2 相关工作

长上下文 LLM：针对 RoPE（旋转位置编码）基础的大语言模型的外推方法 [11]，如 NTK [12]、PI [13]、YaRN [14] 和 DCA [15]，通过修改基础频率、位置索引及其他位置嵌入组件，使模型能够捕捉远距离的语义依赖关系。另一方面，线性注意力机制 [22, 23]、循环神经网络（RNN）以及状态空间模型（SSM）[36–40] 则采用不同的架构以实现 O(N) 的计算复杂度，旨在处理极长的上下文。稀疏注意力机制 [19–21] 通过调整注意力掩码矩阵以应用滑动窗口等模式，从而消除无关的注意力计算。然而，这些模式通常基于预定义的启发式规则。近期也开始探索动态稀疏注意力的可能性 [41, 42]。长短期记忆（LSTM）机制 [29] 在早期自然语言处理任务中取得了显著成功，而神经图灵机 [30] 和记忆网络 [31] 则展示了如何为神经网络配备记忆能力。现有集成到 Transformer 模型中的记忆机制通常通过添加外部记忆模块 [26, 43–45] 或外部数据库 [46–48] 实现。相比之下，我们使用强化学习（RL）赋予 LLM 自身记忆能力。

LLM 的强化学习：在近期的强化学习研究中，奖励信号逐渐从人类偏好 [49] 或由此蒸馏出的奖励模型 [50]，转向基于规则的反馈，这种方式在提升模型推理能力方面展现出巨大潜力 [3, 4, 51–53]。关键贡献包括：基于广义优势估计（GAE）的 PPO [54]、 Actor-Critic 框架，以及采用组归一化的 GRPO [56]。算法增强方法 [35, 57, 58] 主要聚焦于提升这些算法的训练可持续性与样本效率。为了进一步释放 RL 的潜力，近期研究如 Search-R1 [33]、Agent-R1 [32] 和 RAGEN [59] 探索了基于多轮对话训练使用工具的智能体。然而，这些多轮对话通常通过交替拼接工具响应与模型回复构建，其最终优化目标是一个带工具屏蔽的单一对话。GiGPO [34] 进一步研究了在智能体训练中使用多个独立上下文与环境反馈的方式，采用滑动窗口轨迹。但这些方法仅限于优化观察与生成交错的轨迹，难以应用于更通用的智能体工作流。

3 所提出的 MemAgent 方法

本节将详细描述 MemAgent 在解决长上下文任务中的方法，包括整体工作流（§3.1）、用于训练 MemAgent 的多轮对话强化学习算法（§A）、奖励建模设计（§3.3）以及架构实现设计（§3.4）。

3.1 MemAgent 工作流：用于无限上下文的 RL 记忆机制

如图 2 所示，MemAgent 并不将任意长度的文档视为一个整体块，而是视为一串可控的证据流。在每一步中，模型仅接收两个输入：下一段文本片段，以及一个紧凑的固定长度记忆，该记忆总结了迄今为止被认为重要的所有信息。关键在于，这份记忆仅由上下文窗口内的普通 token 构成，因此底层 LLM 的核心生成过程保持不变。

在读取新片段后，模型会用更新后的记忆覆写之前的记忆。这种覆写策略看似简单，但正是它使系统具备可扩展性：由于记忆长度始终不变，每个片段的计算成本保持为 O(1)，整体端到端复杂度严格线性于片段数量。

我们将覆写决策建模为一个强化学习问题：智能体因保留后续有用信息而获得奖励，因丢弃浪费 token 的干扰项而获得奖励。通过我们新引入的多轮对话 DAPO 算法（详见 §A）优化该目标，模型学会在保留关键事实的同时进行激进压缩。

该工作流自然将推理过程划分为两个模块：在上下文处理模块中，模型迭代处理片段，并使用提示模板（表 1 上部）更新记忆。一旦文本流处理完毕，将调用最终答案生成模块（表 1 下部），模型仅参考问题陈述与记忆生成最终答案。由于位置嵌入从未被重缩放或修补，两个模块中使用的是相同的分词与注意力布局，从而在无需任何架构修改的前提下，释放模型潜在的长度外推能力。

表 1：MemAgent 的模板，用于上下文处理（上半部分）和最终答案生成（下半部分）。花括号中的占位符 {} 将被实际内容替换。

因此，MemAgent 从该设计中获得三项优势： (1) 无限长度：文档可达数百万 token，因为其被视为流式处理； (2) 无性能断崖：RL 鼓励记忆仅保留所需信息，实现几乎无损的外推（见图 1）； (3) 线性成本：固定窗口大小意味着解码时间与内存消耗随输入长度线性增长O(N)（详见 §A）。这为将任何中等上下文大小的 LLM 转化为高效长上下文推理器提供了实用方案，且工程开销极小。

3.2 使用多轮对话强化学习训练 MemAgent

将上下文处理中的记忆更新视为 RL 策略的一部分，用于优化问答任务，我们采用 RLVR 方法 [3, 51, 60] 来训练 MemAgent。基础算法方面，我们采用 Group Relative Policy Optimization（GRPO）[56]，因其在 RLVR 中具备简洁性与高效性。

在 GRPO 的 rollout 阶段，策略模型 πθold针对输入x采样一组G个独立响应

。令

为对应的序列级奖励，则第i个响应的组归一化优势计算如下函数：

GRPO 采用带有 KL 惩罚项的裁剪目标函数：

其中ri,t(θ)表示重要性采样权重：

然而，由于 MemAgent 方法的特性，它会为单个查询生成多个上下文独立的对话，如图 2 所示。因此，策略优化无法像多轮工具调用优化那样简单地通过注意力掩码实现。

为了解决这一问题，我们将每个对话视为一个独立的优化目标，如图 3 所示。设n_i表示某个样本 (q_i, a_i)所生成的对话数量：(o_{i,1}, o_{i,2}, …, o_{i,n_i})。每个 o_{i,j}进一步分解为 token 级输出：(o_{i,j,1}, o_{i,j,2}, …, o_{i,j,|o_{i,j}|})。我们通过包含最终答案的最后一个对话计算每个样本的结果奖励 R_i，并将组归一化后的优势值分配给该样本所关联的所有对话。公式 4 和 5 展示了在 MemAgent 算法中，如何在上下文独立的多轮对话 rollout 中计算优势值与损失函数。优势值来源于包含最终答案的对话，然后被均匀应用于该样本所生成的所有对话。我们的损失函数与 DAPO [35] 中使用的类似，采用 token 级平均损失。此外，我们将损失计算的维度从传统的（组，token）结构扩展为（组，对话，token）结构。遵循 DrGRPO [58] 的做法，我们在计算优势值时不使用奖励的标准差进行归一化。

图 3：标准 GRPO 与多轮对话式 DAPO 的对比。

在 Multi-conv DAPO 的 rollout 阶段，每个样本会生成多个对话。最终对话中包含的答案被用于计算奖励与优势值，这些奖励与优势随后被用于优化所有先前生成的对话。

3.3 奖励建模

遵循 RLVR 方法 [33, 35, 51]，我们使用由规则验证器计算的最终结果奖励来训练模型。在 RULER [1] 及其他数据集中，问题可能对应多个真实答案。对于某些任务（如问答），这些真实答案被视为等价的。给定一组多个真实答案 Y = {y1, y2, . . . , yn}，奖励得分定义为：

其中，y^是预测的答案，I(·)是指示函数。

对于其他任务，所有真实答案都应包含在最终输出中。一个例子是“多值针堆任务”（Multi-Value Needle in a Haystack），问题可能是：“XXX 的所有特殊魔法数字是什么？” 在这种情况下，奖励函数定义为：

| · | 表示集合的基数（元素数量）。

3.4 从自回归建模视角重新思考 MemAgent

最后，为了更深入理解 MemAgent 的设计，我们提出以如下方式重新思考语言模型的因式分解方式。一个标准的自回归大语言模型（LLM）会将序列x1:N的联合概率分解为：

图 4：MemAgent 的架构与图形模型。记忆被建模为一个潜在记忆变量，从而使得自回归语言模型的建模过程可以被分解为多个“读取记忆”和“写入记忆”的步骤。

这隐含地假设每一个过去的 token（或至少其隐藏状态）必须保留在当前激活的上下文中。而这正是使得注意力机制呈二次复杂度的根源，也构成了长上下文处理的瓶颈。

MemAgent 用一个固定长度的记忆向量m∈V^M来替代无限增长的历史信息，如图 4 所示。

输入文本被划分为连续的K个片段：c_1, c_2, ……, c_K,(每段长度不超过 C）。在读取第k个片段之后，模型会用一个新的向量 m^k覆写记忆面板，该向量总结了迄今为止所看到的所有证据。由于|m_k| = M是常数，因此每一步的计算与内存开销为 O(C + M)，整体复杂度为线性，即 O(N)。引入潜在序列m1:K−1可以将原始联合概率分解为：

基础case:m0 = ∅,在每个文本片段内部，我们仍然运行一个普通的 Transformer 解码器，但其条件上下文窗口是常量，即 (ck, mk−1).读取路径按 token 逐个因式分解：

而写入路径则以相同的自回归方式生成下一步记忆。MemAgent 实现了上下文的 token 级压缩，而 local-global 模型或线性注意力模型则是在特征空间中进行压缩；它们的摘要是隐式的且不可解释的。相比之下，MemAgent 的摘要存在于 token 空间中，因此每一个中间记忆都是可读的，可以被人工检查甚至编辑—— 这一特性在我们设计强化学习奖励机制（见 §3.3）时被充分利用。从概念上讲，公式 (8) 将 Transformer 转化为一个状态大小可由用户控制的循环神经网络。

为什么强化学习是必要的？因为记忆 token 是潜变量，并通过离散的覆写规则进行更新，仅靠反向传播无法教会模型哪些信息应保留、哪些应舍弃。我们的多轮对话 GRPO 算法（见 §A）将每一次“读–写–读”循环视为一个强化学习转移过程，直接对那些最终能产生正确答案的记忆给予奖励。这弥合了显式监督（答案）与隐式结构（优质记忆）之间的鸿沟，完成了前文所述的训练流程。

最终的 MemAgent 架构保留了原始解码器的训练配方，无需使用任何特殊注意力核函数，并满足长上下文三难困境的三项要求：任意长度、无损外推、线性成本。

4 实验

在训练与主要评估中，我们采用多跳长文本问答（QA）任务，并进一步在其他多种长文本任务上进行评估。我们选取现有的长上下文方法作为基线，通过比较测试集数据长度增加时的性能变化，来评估模型的长文本外推能力。

4.1 数据集

RULER [1] 包含多种上下文长度可控的合成任务，是研究模型在上下文长度增加时性能变化的理想基准。

RULER 的问答子集将现有的短上下文 QA 数据集改造为长上下文评估任务，具体做法是将包含正确答案的黄金段落嵌入到大量干扰内容中，这些干扰内容来自同一数据集。这种配置模拟了现实中的“针堆任务”（Needle in a Haystack, NIAH）范式：问题作为查询，黄金段落是针，干扰段落是草堆。该任务在合成评估与实际长上下文应用之间架起了桥梁，非常适合评估模型从真实文档集合中定位并提取相关信息的能力。我们使用上述方法从 HotpotQA 数据集中合成训练样本，总计 200 篇文章，约 28K token 长度。我们对数据集进行了彻底清洗，过滤掉那些在 Qwen2.5-7B-Base 或 Qwen2.5-7B-Instruct 模型上无需任何上下文即可获得 100% Best-Of-2 得分的问题。这些问题很可能是模型已内化的常识。通过该方法，我们处理了 HotpotQA [2] 训练集中的 80,000 个样本。约 50% 的数据被过滤，从剩余样本中我们选取了前 32,768 个用于进一步训练。随后，我们以相同方法从 HotpotQA 验证集合成了 128 个样本。为了进一步研究模型性能随长度变化的趋势，我们使用相同的问题合成了不同上下文长度的测试集。文章数量从 50、100 一直到 6400 篇不等，对应的上下文长度约为 7K、14K，最高达 3.5M token。

4.2 实验设置

训练细节 为保持与前人工作的可比性，我们选择 Qwen2.5-7B-Instruct 与 Qwen2.5-14B-Instruct 作为基础模型进行实验。我们基于 verl [61] 实现了独立上下文的多轮对话框架。在训练过程中，我们故意将模型上下文窗口限制为 8K，以突出其外推能力。

该 8K 窗口分配如下：

查询：1024 token
上下文片段：5000 token
记忆：1024 token
输出：1024 token
剩余 token 用于聊天模板

因此，模型通常需要 5 到 7 个对话轮次才能处理完整上下文。

超参数设置 我们使用 GRPO 算法进行训练， KL 系数设为 1e-3，禁用熵损失。优化器采用 AdamW，学习率为 1e-6，并使用线性预热的常数学习率调度器。 rollout 批次大小为：7B 模型用 128，14B 模型用 256，组大小设为 16。样本批次大小与反向传播批次大小的比例设为 16。

模型配置 我们使用 DeepSeek-R1-Distill-Qwen [51]、Qwen-2.5-Instruct-1M [62] 和 QwenLong-L1 [63] 作为基线模型。我们遵循这些基线模型的官方配置来设定上下文长度。具体而言，Qwen2.5-Instruct-1M 系列通过 DCA 外推至 1M token； DeepSeek-R1-Distill-Qwen 与 QwenLong 的上下文长度设为 128K token。对于 128K 上下文模型，输入为 120,000 token，输出为 10,000 token；对于 1M 上下文模型，输入为 990,000 token，输出为 10,000 token。

4.3 主要结果

主要实验结果见表 2。我们对所有模型在上下文长度从 7K 到 896K 范围内的性能进行了对比分析。特别地，对于 MemAgent 模型，我们进一步评估其在超长上下文（1.75M 和 3.5M）上的外推能力，以检验其在标准上下文范围之外的泛化能力。

从结果来看，MemAgent 展现出卓越的长度外推能力，随着输入上下文长度的增加，性能仅出现轻微衰减。这证明了所提出的记忆机制与强化学习方法在处理超长上下文场景中的有效性。

相比之下，基线模型即使在其训练上下文窗口内也表现出明显的失败模式。推理模型（DS-Distill-Qwen 系列）性能迅速下降； QwenLong-L1 在其训练长度 60K 内保持合理性能，但之后出现明显衰减； Qwen2.5-Instruct-1M 系列在 112K token 内维持可接受性能，但在 896K token 时性能降至零，远低于其理论上的 1M token 容量。

这表明，尽管上下文窗口被扩展，这些模型在超长上下文中仍难以有效利用信息。

表 2：主要实验结果，比较各模型在不同上下文长度下的性能表现。所有数值均表示准确率（%）。

4.4 消融研究

强化学习训练 为了研究强化学习对记忆机制的影响，我们进行了进一步的消融实验。我们的基线模型包括 Qwen2.5-Instruct [64] 系列，以及未经过强化学习训练但具备记忆机制的 Qwen2.5-Instruct 模型。

如图 5 所示，原始模型在上下文长度增加时表现出严重的性能下降，尤其是在超过 112K 时，由于上下文窗口限制，输入被截断。而具备记忆机制但未经过强化学习训练的模型，虽然表现更好，在超过上下文长度的任务上仍能维持合理性能，但随着输入长度的增加，整体性能仍呈下降趋势。

相比之下，经过强化学习训练的模型在所有上下文长度范围内都保持了持续的高性能，性能下降极小。这表明，虽然记忆机制为长上下文提供了结构性支持，但强化学习对于教会模型如何正确利用记忆至关重要。

分布外任务（Out-of-Distribution Tasks） 为了评估我们方法的泛化能力，我们在 RULER 基准中的 OOD 任务上进行了全面实验，包括“针堆任务”变体、变量追踪、频繁词提取，以及从 SQuAD [65] 合成的问题回答任务。

我们为这些任务合成了上下文长度从 8K 到 512K 的数据集，但由于文档长度限制，SQuAD 的上下文仅扩展至 256K。

图 6 展示了不同任务类别下的性能对比。结果表明，MemAgent 在多种任务类型中始终保持卓越性能。尤其是 MemAgent-14B 在上下文长度从 8K 到 512K 的 RULER 平均任务中准确率超过 95%，而 MemAgent-7B 的表现甚至优于未经过强化学习训练的 32B 模型以及长上下文微调模型。 MemAgent-7B 与 14B 在基于 SQuAD 的 QA 任务中均保持稳定性能，这表明其记忆能力能够泛化至训练数据之外。

相比之下，所有基线模型在超过 128K token 的上下文长度下均出现显著性能下降。在异构任务中的持续强劲表现验证了该记忆机制能够有效泛化至多种长上下文场景，而非仅仅拟合特定格式。所有 RULER 单项任务的完整结果见附录 B。

4.5 案例研究

为了进一步详细说明所提出的记忆机制，我们对 MemAgent-14B 的一个生成轨迹进行了案例研究。

输入问题为： “浪漫喜剧《Big Stone Gap》的导演常驻于纽约市的哪个地区？”

这是一个两跳问题，相关的维基百科条目如下：

1）《Big Stone Gap》是一部 2014 年美国剧情浪漫喜剧电影，由 Adriana Trigiani 编剧并执导。 2）Adriana Trigiani 是一位意大利裔美国畅销书作家、电视编剧、电影导演和企业家，常驻于纽约市的 Greenwich Village。

在第一轮中，模型接收到的是关于 Ghost 的条目，该条目描述了一个也常驻纽约的制作团队。模型选择保留这条可能有用的信息以备后用。

在第二轮中，未提供任何相关上下文；尽管如此，模型仍保持其智能体状态，展现出对干扰的鲁棒性。

在第三轮中，两个相关条目被同时呈现。模型正确识别出关键信息，并相应地更新了记忆，最终得出正确答案：Greenwich Village, New York City。至此，推理过程完成。在剩余轮次中，模型的记忆保持不变，并用于生成最终回答。这一轨迹突出了记忆智能体所学习的几项核心能力：估计潜在相关信息、抵抗干扰、识别关键证据并进行有效记忆更新。

图 6：RULER 基准任务的性能热力图，展示了不同上下文长度下的准确率得分（绿色越深表示性能越好）。模型按类型在纵轴上分组。 (a) 平均性能：涵盖 10 个合成任务，包括“针堆任务”变体、变量追踪和词语提取。 (b) 问答任务：从 SQuAD 数据集合成，上下文长度扩展至 256K tokens。

Chunk1 … 文档 20：Ghost（制作团队） Ghost 是一个瑞典唱片制作与词曲创作团队，由 Ulf Lindström 和 Johan Ekhé 组成，常驻纽约市。 …

Memory1 所提供的文本片段未包含关于浪漫喜剧《Big Stone Gap》的导演或其在纽约市的常驻地的任何信息。然而，它提到了一个名为 Ghost 的制作团队，常驻纽约市。由于问题明确询问的是《Big Stone Gap》的导演，且该片段未提供关于导演的直接信息，我们无法从该文本中推断出与问题直接相关的内容。

更新后的记忆： • Ghost 是一个瑞典唱片制作与词曲创作团队，由 Ulf Lindström 和 Johan Ekhé 组成，常驻纽约市。他们最为人知的是为瑞典歌手 Robyn 的前三张录音室专辑进行词曲创作与制作。该片段未能回答问题。需要额外信息以确定《Big Stone Gap》的导演及其在纽约市的常驻地。

Chunk2 …（无相关文档）

Memory2 所提供的文本片段未包含关于浪漫喜剧《Big Stone Gap》的导演或其在纽约市的常驻地的任何信息。因此，针对当前问题，更新后的记忆保持不变。记忆仍然记录了 Ghost 制作团队常驻纽约市的信息，但未提供关于《Big Stone Gap》导演的任何信息。

更新后的记忆： • Ghost 是一个瑞典唱片制作与词曲创作团队，由 Ulf Lindström 和 Johan Ekhé 组成，常驻纽约市。他们最为人知的是为瑞典歌手 Robyn 的前三张录音室专辑进行词曲创作与制作。 • 所提供的片段未能回答问题。需要额外信息以确定《Big Stone Gap》的导演及其在纽约市的常驻地。

Chunk3 … 文档 81：《Big Stone Gap》（电影）《Big Stone Gap》是一部 2014 年美国剧情浪漫喜剧电影，由 Adriana Trigiani 编剧并执导，由 Donna Gigliotti 为 Media Society 的子公司 Altar Identity Studios 制作。 …

文档 96：Adriana Trigiani Adriana Trigiani 是一位意大利裔美国畅销书作家，著有十六本书，同时也是电视编剧、电影导演和企业家，常驻纽约市的 Greenwich Village。 …

Memory3 更新后的记忆： • Ghost 是一个瑞典唱片制作与词曲创作团队，由 Ulf Lindström 和 Johan Ekhé 组成，常驻纽约市。他们最为人知的是为瑞典歌手 Robyn 的前三张录音室专辑进行词曲创作与制作。 • Adriana Trigiani 是一位意大利裔美国畅销书作家，著有十六本书，同时也是电视编剧、电影导演和企业家，常驻纽约市的 Greenwich Village。自 2000 年以来，她每年出版一本小说。 • 《Big Stone Gap》是一部 2014 年美国剧情浪漫喜剧电影，由 Adriana Trigiani 编剧并执导，由 Donna Gigliotti 为 Media Society 的子公司 Altar Identity Studios 制作。该片改编自 Trigiani 于 2000 年出版的同名畅销小说，故事设定在 1970 年代的弗吉尼亚州 Big Stone Gap 镇。电影于 2014 年 11 月 6 日在弗吉尼亚电影节上举行全球首映。

浪漫喜剧《Big Stone Gap》的导演是 Adriana Trigiani，她常驻于纽约市的 Greenwich Village。

该推理轨迹突出了记忆智能体所学习的几项核心能力：根据查询关键词预估潜在相关内容并预先存储；在遇到与查询匹配的上下文时立即更新记忆；并在面对无关信息时保持不受干扰。值得注意的是，这些记忆行为并非源于架构层面的注意力机制，而是通过强化学习所强化的文本生成能力所自然涌现的结果。

5 结论

我们提出了一种用于建模长上下文任务的新方法，通过引入潜在变量记忆机制，将连续的自回归生成过程分解为一系列逐步从记忆中生成上下文的步骤。

该方法基于现有的密集注意力 Transformer 架构，无需改变生成范式或引入额外模型架构，即可以O(N)的计算复杂度处理无限长度的输入文本。

我们引入 MemAgent 来实现这一建模方法，为大语言模型配备了一个通过强化学习训练的记忆机制，使模型能够学习记录相关信息并忽略无关细节的能力。

实验表明，在使用 8K 上下文（包含 1024-token 记忆，每步处理 5000-token 输入）对 32K 长度数据进行训练后，该模型在测试时能够外推至 3.5M token，且几乎无性能损失。

消融研究进一步证明了仅使用记忆机制本身即可有效处理长上下文，而在此基础上加入强化学习训练则能进一步提升性能。

在域内与域外任务上的结果均表明， MemAgent 超越了长上下文微调模型、推理模型及其他基线方法，在长上下文任务上达到了当前最先进的性能水平。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。