一、为什么短期策略无法应对长期任务?

典型的端到端策略或模仿学习模型存在“视野短视”问题:

  • 输入仅包含当前帧图像或最近几秒状态;
  • 输出是下一时刻的动作;
  • 缺乏对任务全局进度的感知。

这导致它们在面对以下场景时极易失败:

  • 任务中断:正在拿书时被叫去开门,回来后忘记原任务;
  • 环境变化:书架位置移动,无法复用旧轨迹;
  • 隐式依赖:必须先拔掉充电线才能收起设备,但示范数据未显式标注顺序。

真正的长期智能,需要“记住过去、理解现在、规划未来”三位一体的能力

二、长期规划:从分层抽象到目标驱动

解决长时程任务的关键在于分层抽象(Hierarchical Abstraction):

1. 任务分解与符号规划

高层规划器(如基于PDDL的规划器或大语言模型)将复杂指令拆解为有序子目标。例如:

“整理书房” → [找书 → 拿书 → 走到书架 → 放书] + [找充电器 → 插电] + [找垃圾桶 → 扔垃圾]

这种符号级规划提供组合泛化能力,即使从未见过“整理书房”的完整示范,也能通过已有技能组合完成。

2. 目标条件策略(Goal-Conditioned Policies)

底层控制器不再输出绝对动作,而是以子目标状态(如“手到达书的位置”)为条件生成动作。这使得策略可重用,且对路径扰动鲁棒。

代表工作如 HIROSkiLD,通过层级强化学习实现跨任务迁移。

3. 动态重规划能力

当环境突变(如书被猫叼走),系统需检测异常并重新规划。这依赖于执行监控模块,持续比对预期状态与实际观测,触发回退或修正。

三、记忆机制:不只是“存储”,更是“理解”

记忆不是简单的日志记录,而是结构化、可检索、可推理的知识库。当前研究聚焦三类记忆:

1. 情景记忆(Episodic Memory)

记录具体经历:“昨天下午3点,在客厅用右手成功抓起蓝色马克杯”。

  • 用途:快速复现成功经验,或分析失败原因;
  • 实现:向量数据库(如FAISS)存储状态-动作-结果三元组,支持相似性检索。

2. 语义记忆(Semantic Memory)

存储抽象知识:“玻璃杯易碎,需轻拿轻放”“充电器通常在桌面右侧”。

  • 用途:指导新任务决策;
  • 实现:结合LLM或知识图谱,将交互经验提炼为规则或事实。

3. 程序性记忆(Procedural Memory)

固化高频技能:“开门的标准流程是先握把手,再旋转90度,最后拉出”。

  • 用途:作为技能原语供高层调用;
  • 实现:参数化技能库(Skill Library),支持条件触发与参数调整。

关键突破:让这三类记忆协同工作。例如,当遇到新杯子,系统先检索情景记忆(“上次抓类似杯子用了3N力”),再调用语义记忆(“陶瓷材质,需防滑”),最终激活程序性记忆(“标准抓取技能”)。

四、前沿实践:记忆+规划如何落地?

▶ Google 的 SayPlan

结合LLM与记忆增强检索,在执行“布置餐桌”任务时,能回忆“主人上周说不喜欢叉子放左边”,并据此调整摆放策略。

▶ Stanford 的 MEM-RSS(Memory-Enhanced Robotic Skill Selection)

构建机器人专属记忆库,记录每次操作的成功率、耗时、力反馈等。在新任务中,系统优先选择历史表现最优的技能变体。

▶ Meta 的 HippoRNN

受海马体启发,设计具有长期依赖建模能力的循环网络,使机器人能在长达10分钟的任务中保持目标一致性。

▶ Figure 01 的上下文记忆

人形机器人能记住对话上下文:“你刚才说饿了”,几分钟后主动递上零食,体现跨模态长期记忆(语言+视觉+任务)的融合。

五、挑战与未来方向

尽管进展显著,长期规划与记忆仍面临核心挑战:

  • 记忆膨胀问题:无限积累经验导致检索效率下降;
  • 遗忘与更新机制缺失:如何删除过时记忆(如旧家具布局)?
  • 多任务干扰:不同任务的记忆可能相互冲突;
  • 缺乏统一架构:记忆、规划、执行常由独立模块实现,耦合度低。

未来可能的突破包括:

  • 神经符号记忆系统:用符号结构组织神经记忆,提升可解释性;
  • 压缩式终身学习:自动提炼经验精华,丢弃冗余细节;
  • 个性化记忆建模:为不同用户/环境建立专属记忆空间;
  • 基于事件的记忆索引:以“事件”而非“时间戳”组织记忆,更符合人类认知。

结语

具身智能的终极考验,不是完成一个动作,而是在时间的长河中持续理解、适应并服务于人类的生活
而这一切,都依赖于两个看似简单却极其复杂的机制:记住什么,以及如何计划下一步

当机器人不仅能执行“现在”的指令,还能思考“接下来该做什么”“上次哪里出了问题”“主人可能需要什么”——它就不再是工具,而成为真正意义上的生活伙伴

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐