AI学习笔记整理（54）——大模型之Agent 智能体开发前沿技术

在人工智能领域，特别是涉及对话代理（Conversational Agents, CAIs）和情感代理（Affective Agents）时，“Agent的Personality”指的是赋予人工智能代理的一组稳定、可预测的心理特征和行为模式，使其表现得更像一个具有独特个性的个体，而非冰冷的程序。在AI Agent的语境中，“Group”（组）通常指的是一种组织多个智能体（Agent）进行协作的机制

丝斯2011

667人浏览 · 2026-01-19 21:03:21

丝斯2011 · 2026-01-19 21:03:21 发布

多个Agent的协同

参考链接：https://cloud.tencent.com/developer/article/2581255

在多智能体系统中，多个Agent（通常指的是自主的、能够与环境交互的实体）协同工作以完成特定任务或解决复杂问题，是一个非常常见且重要的研究方向。这种系统在很多领域都有应用，比如机器人合作、分布式计算、多智能体强化学习等。以下是实现多个Agent协同工作的几种主要策略和技术：

通信协议

消息传递‌：Agent之间通过发送和接收消息来交换信息。这可以通过各种通信协议实现，如基于事件的通信、请求/响应模型等。
语言理解与生成‌：设计一套共同的语言或协议，使得不同Agent可以理解和生成彼此能理解的指令或请求。

协调机制

集中式控制‌：由一个中央控制器协调所有Agent的活动。这种方法的优点是容易实现和管理，但缺点是中心化可能导致瓶颈和单点故障。
分布式控制‌：每个Agent根据本地信息和与其他Agent的交互来做出决策。这种方法更健壮，但需要更复杂的算法来处理冲突和同步问题。
层次化控制‌：系统分为多个层次，每个层次负责一部分决策和控制，例如在机器人集群中，高层负责路径规划，低层负责具体执行。

强化学习

多智能体强化学习（MARL）‌：在这种框架下，每个Agent学习如何在给定的环境中最大化其奖励，同时考虑其他Agent的行为。常用的算法包括Q-learning、Actor-Critic方法等，特别是在使用深度学习时效果显著。
合作与竞争‌：根据任务需求，可以是完全合作（所有Agent共同努力达到一个共同目标），也可以是部分合作和部分竞争（例如在捕食者-被捕食者游戏中）。

算法和技术

博弈论‌：利用博弈论中的概念，如纳什均衡、零和博弈等，来设计Agent之间的策略和交互。
一致性算法‌：如Paxos、Raft等，用于解决分布式系统中的一致性问题，确保多个Agent在执行决策时能够达成一致。
图论‌：利用图论来建模Agent之间的关系和交互，例如在社交网络分析或路由问题中。

模拟与测试

仿真环境‌：使用仿真软件（如Gazebo、Unity）来模拟Agent的物理和行为环境，以便测试和优化协同策略。
实验设计‌：设计实验来评估不同协同策略的效果，包括定量和定性的评估方法。

实施步骤示例

定义目标‌：明确每个Agent的任务和整体系统的目标。
设计通信协议‌：确定Agent间如何交换信息。
选择协调机制‌：根据系统需求选择合适的协调方式。
开发算法‌：实现具体的算法或策略，如使用强化学习算法。
模拟与测试‌：在仿真环境中测试系统的性能和稳定性。
部署与优化‌：将系统部署到实际环境中并根据反馈进行优化。

通过上述步骤，可以有效地实现多个Agent的协同工作，提高整体系统的效率和性能。

Agent的Group行为

在AI Agent的语境中，“Group”（组）通常指的是一种组织多个智能体（Agent）进行协作的机制，它并非一个通用的、标准化的术语，而是特定框架或系统中用于实现多Agent协作的核心概念之一。根据近期（2026年1月）发布的资料，Group机制在‌ooderAI Agent‌系统中被清晰地定义和阐述。

在ooderAI Agent框架中，‌Group‌（场景组）是‌Scene‌（场景）的具体实例化，是实现多Agent自主协作的‌执行单元‌。可以将其理解为根据预设的协作规则（Scene）临时组建起来的、负责完成特定任务的“实战小队”。

‌核心概念‌：
Group（场景组）是基于特定Scene（场景）自动形成的多Agent协作组。它是一个具体的执行单元，包含了实际参与协作的Agent和Skill列表、组所有者以及管理规则。‌

以下是Group的核心特征：

基于Scene实例化‌：每个Group都源于一个特定的Scene。Scene定义了协作的“舞台”、目标和规则（例如“生成工作日报”或“系统初始化”），而Group则是这个舞台上的具体演出团队。‌
包含协作成员‌：一个Group包含了实际参与该协作任务的Agent和Skill（技能模块）的列表。‌
拥有管理结构‌：Group具有明确的“组所有者”和管理规则，负责协调组内成员的协作、资源分配和状态管理。‌
实现负载均衡与隔离‌：同一Scene可以支持创建多个Group，这有助于分散任务负载、隔离资源，提高系统的效率和稳定性。‌
自主协作单元‌：Group是Agent们真正开展自主协作、分工执行的具体单位，它屏蔽了底层复杂性，为上层任务发起者（如Skillflow）提供了简洁的交互接口。‌

‌功能与作用‌：
Group负责管理同一场景下的Skill协作，是多Agent真正开展工作的“实战小队”。一个Scene（协作的上下文舞台）可以支持多个Group，这有助于实现负载均衡和资源隔离。‌

简而言之，在ooderAI Agent系统中，‌Group就是为完成特定业务目标，由系统自动组建并管理的、由多个Agent和Skill组成的临时协作团队‌。

‌与Scene的关系‌：
Scene定义了协作的规则、目标和约束条件，而Group则是该Scene的具体实例化。例如，在“工作日报生成”这个Scene下，可以创建一个Group来专门负责执行该任务。‌

此外，在更早期的编程平台概念中，AgentGroup被设计为一个与消息队列、处理器和路由器绑定的对象，用于模拟团队行为，支持Agent间的同步或异步调用。‌其他AI Agent框架可能使用不同的术语来描述类似概念。例如，微软的AutoGen框架中，‌GroupChatManager‌负责管理多个Agent的分组协作，其功能与Group有相似之处，但具体实现和命名不同。‌

Agent society

参考链接：https://ai-bot.cn/agentsociety/

AgentSociety 是清华大学推出的基于大语言模型（LLM）的社会模拟器，通过构建具有“类人心智”的智能体来模拟复杂的社会行为和现象。结合社会学理论，赋予智能体情感、需求和认知能力，能在模拟的城市环境中进行移动、就业、消费和社交互动。AgentSociety 的核心功能包括真实的城市社会环境模拟、大规模社会模拟引擎以及智能社会科学研究工具箱。可用于分析社会现象，作为政策沙盒测试、危机预警和未来社会形态探索的实验平台。

核心功能与特点

大模型驱动的社会智能体‌：每个智能体具备个性化的人格特征、情感需求、认知能力和行为模式，能够模拟市民、企业、政府等不同社会角色。 ‌能在复杂的社会环境中进行移动、就业、消费和社交互动。
真实城市社会环境模拟：平台能精准模拟城市空间，包括交通、基础设施和公共资源，确保智能体在真实环境约束下进行交互，形成逼真的社会生态。
大规模社会模拟引擎：采用异步模拟架构和 Ray 分布式计算框架，结合 MQTT 高并发通信，实现高效、可扩展的智能体交互和行为模拟。
智能社会科学研究工具箱：提供全面支持实验、访谈、问卷调查等社会学研究方法的工具，以及多种自动化数据分析工具，助力从定性到定量的社会科学研究。
实时交互可视化：提供实时界面，方便研究人员在实验过程中监控和与智能体互动。
多层次交互模拟‌：通过模拟智能体之间以及智能体与环境的复杂互动，动态再现社会舆论传播、认知观点极化、公众政策响应等社会现象。 ‌‌
开源与可扩展性‌：作为开源平台，AgentSociety 提供了灵活的架构，支持研究人员、政策制定者和开发者自定义模拟场景，应用于社会学研究、城市治理、舆情分析等领域。

AgentSociety的技术原理

心智层面：智能体被赋予稳定的个体画像（如性格、年龄、性别）和动态的个人状态（如情感、经济状况和社会关系），确保其行为模式的个性化。
心智-行为耦合：智能体的行为由其情感、需求和认知共同驱动，基于马斯洛需求层次理论和计划行为理论，实现从心理状态到行为执行的完整路径。
行为层面：智能体能执行简单行为（如睡眠、饮食）和复杂社会行为（如移动、社交和经济活动），根据环境反馈动态调整行为。
城市空间：模拟城市道路网络、兴趣区域（AOI）和兴趣点（POI），支持多种交通方式（如步行、驾车、公共交通）。
社交空间：支持在线和离线社交互动，模拟社交网络的动态变化。
经济空间：模拟宏观经济活动，包括就业、消费、税收和利息机制，支持经济行为的模拟。
异步模拟架构：每个智能体作为独立的模拟单元，通过消息系统进行信息交换，避免了传统多智能体系统中严格的执行顺序。
分布式计算：基于 Ray 框架和 Python 的 asyncio 机制，实现多核计算资源的高效利用，支持分布式集群扩展。
MQTT 通信协议：支持大规模智能体之间的高并发、低延迟消息传输，确保模拟的实时性和可靠性。

Agent的Personality

在人工智能领域，特别是涉及对话代理（Conversational Agents, CAIs）和情感代理（Affective Agents）时，“Agent的Personality”指的是赋予人工智能代理的一组稳定、可预测的心理特征和行为模式，使其表现得更像一个具有独特个性的个体，而非冰冷的程序。这一概念旨在提升人机交互的自然度、沉浸感和用户满意度。
定义与目的‌：

定义‌：代理的个性被定义为一组影响其在特定情境下动机、行为和情感反应的个体特征。它决定了代理如何“思考”、“感受”和“与他人互动”。‌
目的‌：通过模拟人类个性，使代理的行为更具一致性、可预测性和情感深度，从而改善用户体验，促进更自然的沟通，并在情感计算、虚拟助手、教育机器人等领域提升应用效果。‌

主要的个性模型‌：

五因素模型（FFM）‌：这是心理学和计算领域最广泛接受和使用的个性模型之一。它将个性划分为五个基本维度：
- 外向性（Extraversion）‌：代理是社交、健谈、充满活力还是内向、安静、保守？
- 宜人性（Agreeableness）‌：代理是合作、富有同情心、信任他人还是怀疑、竞争、冷漠？
- 尽责性（Conscientiousness）‌：代理是组织有序、可靠、自律还是随意、粗心、不可靠？
- 神经质（Neuroticism）‌：代理是情绪稳定、冷静、不易焦虑还是容易紧张、焦虑、情绪化？
- 开放性（Openness to Experience）‌：代理是富有想象力、好奇心、偏好多样性还是务实、传统、偏好常规？‌
其他模型‌：研究中也存在其他模型，例如基于“爱的理论”（Love Theory）的框架，将代理个性与用户情感联系起来，区分出如“激情型”、“亲密型”等不同关系模式。‌

个性的构建与影响‌：

生成‌：个性特征可以通过分析大量人类对话数据、专家定义或机器学习算法来生成。例如，一项研究通过系统性方法生成了235个独特的个性描述符，并将其归纳为8个维度。‌
影响‌：代理的个性会显著影响用户与之建立的关系类型和互动方式。例如：
- 一个具有‌认知型‌个性的代理可能引发用户产生“迷恋式”的互动。
- 一个具有‌情感型‌个性的代理可能促成用户产生“完美式”的深度连接。
- 一个具有‌社交型‌个性的代理则更容易建立“友好型”的关系。‌
架构集成‌：个性并非孤立存在，而是被集成到代理的底层架构中（如GenIA3架构），与情感、情绪、认知和决策系统协同工作，以实现更复杂、更人性化的交互。‌

总而言之，Agent的个性是人工智能领域一个关键且活跃的研究方向，它通过赋予机器可识别的、稳定的“人格”特质，极大地推动了人机交互从功能性向情感性和关系性方向的演进。

Agent中的Memory设计

在AI Agent中，Memory的设计是突破模型上下文限制、实现长期任务连续性和个性化交互的核心。其设计并非简单的信息存储，而是构建一套主动的认知架构，主要围绕‌记忆的分类、管理机制和优化策略‌展开。

Memory的核心作用与分类
Agent的Memory系统主要承担三大关键功能：‌突破上下文窗口限制、构建长期个性化画像、驱动基于经验的推理‌。根据其功能和生命周期，Memory通常被划分为以下几类：

短期记忆（短期记忆/工作记忆）‌：负责维持当前任务或对话的活跃上下文。它存储着最近的用户查询、系统响应、中间推理步骤和工具调用结果，是连接感知、推理与行动的中央枢纽。其容量通常受限于大语言模型（LLM）的上下文窗口，用于保证当前交互的连贯性。‌
长期记忆（长期记忆）‌：用于存储Agent从过去交互中习得的、可持久化的信息。这包括用户的偏好、历史对话的摘要、项目知识库、以及从环境中学习到的模式和规则。长期记忆是实现个性化和经验积累的基础，其容量远大于短期记忆。‌

Memory的关键设计策略
为了高效管理记忆并应对上下文膨胀的瓶颈，现代Agent Memory系统采用了一系列先进的工程设计：

动态记忆管理与上下文优化‌：
- 信息卸载与缓存‌：将超出当前任务窗口的历史信息（如早期的工具输入输出、完整的文件内容）从LLM的活跃上下文中移除，转而存储到外部文件或数据库中。模型仅保留指向这些信息的路径或关键标识符，需要时再按需加载。‌
- 文件去重与摘要生成‌：对于大型文件（如代码库），仅在首次添加时传递完整内容。后续交互中，仅传递文件的修改差异（diff）或文件路径。对于过大的文件，利用工具（如tree-sitter）生成仅包含函数签名、变量定义等关键信息的结构化摘要，让模型“按需查阅目录”，而非阅读全文。‌
- 动态对话摘要‌：定期对多轮对话历史进行自动摘要，提炼核心意图和关键决策点，用精炼的摘要替代冗长的原始对话记录，显著压缩上下文体积。‌
记忆的主动学习与优化‌：
- 启发式规则管理‌：设计规则来决定哪些信息值得记住、何时清理旧信息（例如，每完成5轮对话后批量卸载一次）。‌
- 自主记忆优化‌：将记忆管理本身提升为一种可学习的能力，让Agent能根据任务复杂度和反馈，自主学习如何更有效地编码、存储和检索记忆。‌
实现长期个性化‌：

用户画像构建‌：从碎片化的对话历史中，持续提炼并更新用户的偏好、习惯和核心需求，形成动态的个性化画像。这使得Agent能提供更贴合用户预期的服务。‌

综上所述，一个先进的Agent Memory设计是‌结构化、智能化和动态化‌的。它通过区分短期与长期记忆，并运用卸载、摘要、缓存和主动学习等技术，在有限的计算资源下，最大化记忆的效用，使Agent能够超越简单的问答，胜任复杂、长期的交互任务。‌

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

大模型入门指南：从“文字接龙”到“数字特工”，小白也能轻松掌握（收藏学习）

大模型是超级统计模型，通过海量数据学习语言规律，而非真正理解。Transformer架构和注意力机制是其核心，使其能处理长文本。大模型通用性强、迁移能力好，但存在幻觉、时效性滞后和复杂逻辑易出错等问题。未来将向多模态和智能体方向发展。使用时应发挥创意、保持警惕，适用于头脑风暴、文字润色等场景，但涉及金钱、医疗等领域需谨慎