2025最全M3-Agent解析!长记忆+多模态实时处理全攻略,收藏这篇就够了
设想在未来,家用机器人能够通过日常体验,学会自主完成家务而无需明确指示;清晨,它会默默递上一杯咖啡而非询问,因为已经通过长期互动形成了用户习惯记忆。实现该智能水平依赖三大核心能力:(1)通过多模态传感器持续感知世界;(2)将经历存储于长期记忆并逐步构建环境知识;(3)基于累积记忆进行推理以指导行动。
设想在未来,家用机器人能够通过日常体验,学会自主完成家务而无需明确指示;清晨,它会默默递上一杯咖啡而非询问,因为已经通过长期互动形成了用户习惯记忆。实现该智能水平依赖三大核心能力:(1)通过多模态传感器持续感知世界;(2)将经历存储于长期记忆并逐步构建环境知识;(3)基于累积记忆进行推理以指导行动。
为实现这些目标,字节Seed与浙大等高校联合提出M3-Agent,一个配备长期记忆的新型多模态智能体框架。与人类相似,M3-Agent能够处理实时视觉与听觉输入以构建并更新长期记忆。框架采用以实体为中心的多模态记忆组织形式,实现对环境更深入且连贯的认知。在接收指令后,M3-Agent能自主进行多轮迭代推理,并从记忆中检索相关信息以完成任务。
实验结果表明,通过强化学习训练的M3-Agent显著优于最强基线模型Gemini‑GPT4o‑Hybrid,在多个数据集上的准确率显著提升,推动了多模态智能体向更具人类特质的长期记忆方向演进。
- 论文标题:Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
- 论文链接:https://arxiv.org/pdf/2508.09736v1
- 项目地址:https://github.com/bytedance-seed/m3-agent
01
数据集
论文首先构建了M3-Bench,一个专为评估多模态智能体长期记忆推理能力而设计的长视频问答数据集。每个数据实例包含模拟智能体感知输入的长视频,以及一系列开放式问答对。数据集由两个子集构成:
- M3-Bench-robot:包含100个从机器人第一视角录制的真实场景视频;
- M3-Bench-web:包含929个网络来源视频,覆盖更广泛的内容与场景。
M3-Bench的特点在于:(1)包含与多模态智能体部署相关的多样化现实场景长视频;(2)超越浅层感知理解、需要长期上下文复杂推理的挑战性问题。
M3-Bench示例
M3-Bench与现有长视频问答基准在关键维度上的对比
02
方法
M3-Agent由多模态大语言模型和长期记忆模块构成。其运行包含两个并行过程:记忆过程可持续处理任意长度的视频流并构建终身记忆;控制过程则基于长期记忆进行推理以执行指令。
M3-Agent架构
1.长期记忆
长期记忆采用外部数据库存储结构化多模态信息(文本/图像/音频)。具体而言,记忆条目以记忆图形式组织,每个节点代表独立记忆并包含唯一ID、模态类型、原始内容、权重、嵌入向量以及时间戳等元数据。节点间通过无向边连接,捕捉记忆项间的逻辑关联,作为促进相关记忆检索的线索链。
智能体通过逐步添加新的文本、图像或音频节点及连接边来构建记忆,支持动态更新节点内容与权重。针对记忆构建过程中可能出现冲突信息,M3-Agent在推理阶段采用基于权重的投票机制:高频强化记忆项累积更高权重,从而覆盖强化程度较低的冲突条目。
为便于记忆访问,论文提供了一套搜索工具,使智能体能根据特定需求检索相关记忆。具体实现了两种不同粒度层次的搜索机制(详见下表)。
2.记忆过程
在记忆过程中,M3-Agent通过逐片段处理视频流生成两类记忆:情景记忆记录视听细节,语义记忆提取角色身份、属性、关系等通用知识。语义记忆既丰富了记忆内容,更为控制过程提供了额外的检索线索,从而提升检索效能。
**实体表征一致性:**这是长时记忆中的核心挑战,系统突破传统文本描述(如"穿红裙女性")的模糊性局限,采用多模态特征持久化存储方案。
具体而言,为M3-Agent配备人脸识别和声纹识别等外部工具,提取视频中出现的角色面部与声音,并从长期记忆中返回对应身份信息。每个提取的面部或声音通过search_node函数与现有节点关联,或被分配至新创建节点。生成的标识符(face_id或voice_id)作为对应角色的持久化参照。通过全局维护的记忆图作为统一架构,M3-Agent确保不同视频片段局部记忆中的角色身份映射一致性,从而形成连贯的长期记忆。该方法可扩展至场景、物体等概念编码,进一步提升记忆生成的一致性。
**记忆生成:**获取面部和声音标识后,M3-Agent继续生成情景记忆和语义记忆。每个角色必须通过其face_id或voice_id来引用。例如:“<face_1>戴着一顶红帽子和蓝色上衣”,或者“<voice_2>对<face_3>说,‘你今天过得怎么样?’”
这种机制确保了每个角色都与存储在长期记忆中的物理特征明确对应。特别是在语义记忆中,M3-Agent可以进行跨模态推理,建立面孔与声音间的关联,并更新记忆图中的连接,形成统一的<character_id>,实现跨模态一致推理。
关于输出格式,M3-Agent以文本条目的列表形式生成情景记忆和语义记忆。每个条目作为文本节点存入记忆图,实体ID关系则以边形式表示。冲突通过投票机制解决,确保系统在局部错误下仍能稳定学习和维护准确知识。
3.控制过程
接收到指令后,控制过程随即启动。M3-Agent自主执行多轮推理(最多H轮),并调用搜索功能从长期记忆中检索相关信息。M3-Agent可自主决定调用何种搜索函数,如通过search_clip检索特定记忆片段,或search_node获取特定角色的身份标识。
具体而言,M3-Agent中的MLLM可视为策略模型πθ。给定问题q和当前长期记忆M,控制过程按照算法1执行(如下图)。为支持该过程,论文设计了三类提示词:
- 会话开始时明确整体任务目标的系统提示;
- 每轮(末轮除外)开始时追加的指令提示,提供问题及详细指导;
- 仅最终轮使用的末轮提示,向智能体提示此次为最终响应机会。
4.训练
论文采用强化学习优化M3-Agent,为达到最优性能,分别训练两个专用模型:记忆模型基于Qwen2.5-Omni(支持视听输入的多模态模型),控制模型基于Qwen3(强推理语言模型)。
(1)记忆
基于Qwen2.5-Omni-7b通过模仿学习构建memory-7b-sft模型。
首先创建高质量合成演示数据集:将每个视频分割为30秒片段,通过三阶段流程生成记忆标注:
- **情景记忆合成:**联合Gemini-1.5-Pro与GPT-4o生成增强型叙事摘要;
- **身份等价检测:**提出自动挖掘高置信元片段算法,构建全局人脸-声纹对应关系;
- **其他语义记忆合成:**使用提示模板提取多维度语义信息。
最终合成10952个样本(10752训练集/200验证集)进行微调。
(2)控制
首先建立RL训练环境:使用memory-7b-sft为数据集中的每个视频生成对应长期记忆。对于任意问题,智能体仅能在该问题关联视频生成的记忆库中进行检索。
随后基于control-32b-prompt初始化策略模型πθ,采用DAPO进行训练。从训练集D中采样每个问答对(q,a),策略πθ根据算法1生成G条轨迹。每条轨迹的最终答案yi由GPT-4o评估器进行评判,第i条轨迹的奖励值定义为:
第i条响应的优势值通过组级奖励归一化计算,训练时损失函数仅计算LLM生成token,优化目标为:
其中如果τi,t为LLM生成token时指示函数,否则为0。
03
实验
多细节推理(MD)、多跳推理(MH)、跨模态推理(CM)、人物理解(HU)以及通用知识提取(GK)
实验结果显示,M3-Agent在M3-Bench-robot、M3-Bench-web和VideoMME-long数据集上均超越所有基线模型。具体而言:在M3-Bench-robot上较最强基线MA-LLM提升6.3%准确率;在M3-Bench-web和VideoMME-long上分别超越最强基线Gemini-GPT4o-Hybrid模型(gpt4o作为控制部分,gemini作为记忆部分)7.7%和5.3%。
论文进一步评估了M3-Agent在M3-Bench各问题类型上的表现。该模型在人物理解(HU)和跨模态推理(CM)方面展现显著优势:在M3-Bench-robot上较最强基线MA-LMM分别提升4.2%和8.5%;在M3-Bench-web上较最强基线Gemini-GPT4o-Hybrid分别获得15.5%和6.7%的性能增益。这些结果证明了M3-Agent在保持角色一致性、深化人物理解以及有效整合多模态信息方面的卓越能力。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。
针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!
配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)