Agent 四大组件（感知-记忆-决策-行动）详解

了解Agent 四大组件（感知-记忆-决策-行动）的关系

qq_38797567 · 2026-04-08 16:14:54 发布

架构图：

1. 多模态学习（Multimodal Learning）‌

定义‌：同时利用‌多种模态的数据‌（如文本+图像+音频）进行建模，以提升整体性能。

‌目标‌：通过‌融合不同模态的信息‌，获得比单一模态更全面、准确的理解。

‌关键特点‌：强调‌信息互补‌与‌协同表示‌。不一定要求模态之间能相互转换。

‌典型应用‌：情感分析（结合语音语调、面部表情和文字内容）、自动驾驶（融合摄像头、雷达、激光雷达数据）‌。

2. 跨模态学习（Cross-modal Learning）‌

‌定义‌：关注‌不同模态之间的映射、转换或检索‌，例如用文本生成图像，或根据图像搜索相关文本。

‌目标‌：建立模态间的‌语义对齐‌与‌转换关系‌。

‌关键特点‌：核心是‌模态间转换‌，通常依赖‌共同嵌入空间‌或‌对齐机制‌（如CLIP、DALL-E）‌。

‌典型任务‌：图像描述生成、文本到图像生成、跨模态检索（用语音找对应视频）‌。

3. 联合模态（Joint Representation / Joint Multimodal Learning）‌

‌定义‌：将多个模态的数据‌映射到统一的向量空间‌中，形成一个‌共享的联合表示‌，以便直接比较或融合。

‌目标‌：使不同模态在‌同一语义空间‌中具有可比性（如“猫”的图像和“cat”文本向量靠近）。

‌关键特点‌：是多模态学习的一种‌实现方式‌（属于融合策略）。强调‌统一表征‌，而非模态转换。

‌典型方法‌：多模态自编码器、联合嵌入模型（如ViLBERT、UNITER）‌

维度	多模态学习	跨模态学习	联合模态
‌核心目标‌	融合多模态提升性能	实现模态间转换/检索	构建统一语义空间
‌是否需要转换‌	否	是	否（但隐含对齐）
‌典型技术‌	特征拼接、注意力融合	对比学习、生成模型（GAN/VAE）	联合嵌入、共享编码器
‌依赖关系‌	包含联合模态作为子方法	依赖联合表示或对齐	是实现多模态/跨模态的手段之一

简言之：

‌多模态‌是“一起用多种感官看世界”；

‌跨模态‌是“用一种感官理解另一种”；

‌联合模态‌是“让所有感官说同一种语言”‌。

CoT（Chain of Thought，思维链）与 ReAct（Reasoning + Acting，推理 + 行动）是大模型推理的两种核心范式，二者在设计思路、交互能力和适用场景上有显著差异。‌

简言之：‌CoT 是“纸上谈兵”，ReAct 是“实战演练”‌‌23。

‌主流框架以 ReAct 为核心‌，因其支持工具调用与闭环交互，更契合 AI Agent 的实际需求。
‌主流开发框架‌：
- ‌LangChain‌：广泛用于构建基于 ReAct 的 Agent，内置 Tool 封装与推理循环。
- ‌LlamaIndex‌：侧重于检索增强与 ReAct 集成，适用于知识密集型任务。
- ‌PocketFlow‌：轻量级 ReAct 框架，适合快速原型开发‌23。
‌工业界常见实践‌：采用 ‌ReAct + CoT 融合范式‌（即在 ReAct 的每一步推理中使用 CoT 技术），兼顾逻辑清晰性与交互能力，覆盖约 90% 的企业级 AI Agent 场景‌5。

背景：

在 AI Agent 系统中，‌短期记忆出现截断‌通常是因为对话历史或任务状态信息超出了模型的上下文窗口限制，容量受限于 LLM 上下文窗口（如 4K~128K tokens），导致早期关键信息被丢弃，从而影响任务连贯性与推理准确性。