AI技术正从“能看懂”向“能干活”进化,这背后离不开知识表示、检索增强和智能体协同三大核心方向。知识图谱帮AI把知识整理有序,RAG和GraphRAG让AI知识不滞后、不跑偏,Agent则让AI能自主完成任务,复合Agent和编排流则解决了多智能体协同“不乱套”的问题。这篇博客就用通俗的语言,梳理这些技术的发展关系,拆解Agent的核心知识,再结合实战案例讲清楚怎么用。

一、核心技术的发展流程关系:从知识构建到自主协同

RAG、GraphRAG、知识图谱、Agent这些技术不是孤立出现的,而是顺着“先把知识理清楚→让AI用好知识→让AI自主干活→让多个AI协同干好复杂活”的思路逐步发展的,每一步都解决了上一步的痛点。

1. 演进的核心脉络与阶段划分

整个发展过程可以分成4个递进阶段,层层递进、相互支撑:

  1. 第一阶段:知识结构化(知识图谱) 早期AI的知识又散又乱,比如知道“感冒”“发烧”“布洛芬”,但不知道它们之间的关联。知识图谱就像“结构化书架”,用“实体-关系-属性”的方式把信息串起来,比如“感冒-症状-发烧”“发烧-用药-布洛芬”,让知识能精准查找和关联,为后续AI用知识打基础。
  2. 第二阶段:知识增强(RAG→GraphRAG) 大语言模型(LLM)虽然能说会道,但存在两个问题:知识过时、容易说瞎话(幻觉)。RAG就像“专属检索员”,先从外部知识库找最新、最准确的信息,再让LLM基于这些信息生成答案,解决了幻觉和滞后问题。 但传统RAG只能找文本片段,看不出知识间的深层关联。GraphRAG升级成“研究员”,先把文档拆成实体和关系建成知识图谱,检索时不仅找文本,还能梳理出关联路径,比如通过“企业-股东-关联企业”分析风险,让复杂推理更靠谱。
  3. 第三阶段:自主干活(Agent→复合Agent) 知识图谱和RAG都只是“被动提供知识”,不能主动完成任务。Agent(智能体)就像“自主执行者”,能感知环境、自己规划任务、调用工具,比如根据用户需求“规划行程”,还能借助RAG找最新的票务信息。 但单个Agent能力有限,处理不了跨领域任务(比如全流程市场调研)。复合Agent就是“专业团队”,把任务拆给不同Agent:需求分析、数据采集、数据分析、报告生成,各司其职协同完成
  4. 第四阶段:协同管控(编排流) 多个Agent协同容易乱:任务分配不清、流程衔接不畅、出问题没人管。编排流就像“项目经理”,提前定好流程规则:谁先做、谁后做,出问题重试几次,实在不行通知人工。比如市场调研流程:需求分析→数据采集→数据分析→报告生成,确保团队有序干活。

2. 核心技术关系总览

这些技术的关系一句话就能懂:知识图谱是“书架”,RAG/GraphRAG是“找书+梳理”的人,Agent是“能读书干活的执行者”,复合Agent是“执行团队”,编排流是“项目经理”,层层配合让AI从“懂知识”变成“能干活、干好活”。

暂时无法在豆包文档外展示此内容

二、Agent核心知识:让AI自主干活的关键

Agent是整个体系的“干活核心”,能不能自主、高效完成任务,全靠MCP、Skill和上下文管理这三个关键能力。下面用通俗的语言拆解清楚。

1. Agent的核心定义与演进

Agent(智能体)就是能“自己感知、自己决策、自己干活”的AI实体,核心有四个能力:自主做事、能交互、能响应变化、能学新东西。比如生活助手Agent,能看到你的日程(感知)、自己规划行程(决策)、帮你订车票(干活),还能根据你的喜好调整推荐(学习)。

Agent的发展很清晰,从“理论”慢慢变成“实用工具”:

  • 1986年:Minsky在《思维的社会》中首次提出Agent概念,奠定理论基础;
  • 1995年:Wooldridge提出Agent的弱/强定义,明确“自主感知与执行”的核心特征;
  • 2010年代:基于规则的Deliberative架构主导,如IBM Watson,需人工预设大量规则;
  • 2024年:多模态Agent兴起,结合文本、图像、语音等多模态感知能力,如GPT-4V;
  • 2025年:进入“自主思考”阶段,如Anthropic Claude 3.7,可自主拆解复杂任务、优化执行策略。

2. 关键组件:MCP和Skill,Agent的“手脚”和“工具包”

Agent要干活,得有“连接外部的手脚”和“现成的工具包”,这就是MCP和Skill的作用,二者配合才能高效干活。

(1)Skill:Agent的“现成工具包”

Skill就是封装好的“工具”,比如“生成测试报告”“处理Excel数据”,Agent不用重新琢磨怎么干,直接调用就行。每个工具包包含三个部分:

  • SKILL.md:技能说明书,描述技能用途、输入输出格式、操作流程;
  • 脚本/模板:执行任务的核心逻辑,如Excel数据处理脚本、PPT生成模板;
  • 资源文件:依赖的代码片段、样式文件、流程图等。

Skill的核心价值是不用重复造轮子,标准化、可复用。比如测试人员说一句“生成测试报告”,Agent直接调用现成工具,不用反复沟通格式;研发人员用“代码审查工具”批量检查命名规范。官方数据显示,用Skill能提升40%效率,降低35%错误率。

Skill的使用逻辑是“按需加载”:Agent接收任务后,自动识别所需技能,动态加载对应的Skill执行任务,无需一次性加载所有技能,减少资源消耗与推理成本。

(2)MCP:Agent的“万能数据线”

MCP是连接外部系统的标准化协议,就像“万能数据线”,让Agent能访问数据库、API、网盘、代码仓库等。核心优势有三个:

  • 统一访问标准:支持数据库(PostgreSQL、SQLite)、代码仓库(GitHub、GitLab)、文件系统等2000+外部服务;
  • 安全可控:基于OAuth 2.0实现细粒度权限控制,避免Agent过度访问外部资源;
  • 实时交互:通过SSE协议支持实时数据流处理,如实时获取传感器数据。

(3)MCP+Skill:协同干活才高效

MCP和Skill不是竞争关系,而是“手脚+工具”的配合:Skill负责“怎么干具体活”,MCP负责“从外部找资源、传结果”。举两个实际例子:

  • 案例1:财务报销自动化Agent——使用“票据识别Skill”解析报销票据,通过MCP连接企业财务数据库验证发票真实性,再用“报销单生成Skill”生成报销单,最后通过MCP上传到企业OA系统;
  • 案例2:代码审查Agent——通过MCP拉取GitHub代码仓库的代码,使用“代码审查Skill”检查代码规范,再通过MCP将审查结果提交到GitLab的拉取请求中。

两者的区别用表格一看就懂:

对比维度

Skill

MCP

核心定位

现成工具包(干具体活)

万能数据线(连外部)

核心价值

不用重复造轮子,提升效率

打破能力边界,对接外部资源

依赖形式

脚本+模板+说明书

标准化协议(JSON-RPC+OAuth 2.0)

典型应用

生成报告、处理数据、代码审查

查数据库、调用API、管理代码仓库

3. 核心挑战:上下文管理,避免Agent“记混、记不住”

Agent干活时要不断和工具交互,比如查数据、爬网页,每次结果都会存在“上下文”里。时间一长,上下文会变得又大又乱,导致Agent“记混东西”“反应变慢”——这就是“上下文爆炸”和“上下文腐烂”。上下文工程就是解决这个问题的方法,核心是“只让Agent记住有用的信息”。

主流的5个解决办法,简单好懂:

(1)上下文卸载:大文件存起来,只记地址

把大体积信息(比如网页爬取结果、海量问卷数据)存到文件里,只告诉Agent文件位置,不把整个文件塞进上下文。需要时再通过MCP调取,避免占空间。

适用场景:工具调用输出量大的任务(如网页爬取、海量数据查询)。例如在深度研究Agent中,将网页搜索结果存储到文件系统,仅向Agent返回“搜索结果已保存至research_20260107.txt”,避免搜索结果占用大量上下文空间。

(2)上下文缩减:长文本做摘要,只留核心

把长内容压缩成摘要,比如1000字的数据分析结果,提炼成100字核心结论,再交给Agent。现在Claude 3.5已经内置这个功能,自动精简上下文。

适用场景:历史记录较多的长时任务(如持续数小时的市场调研)。目前Claude 3.5 Sonnet已内置该功能,当上下文窗口使用率达到阈值时,自动对历史信息进行精简压缩。

(3)上下文检索:需要时再找,不提前记

给外部存储的信息建索引,Agent需要时再通过搜索工具找(比如语义搜索、文件搜索),不用把所有信息提前记在脑子里。

主流实现方案有两种:一是“索引+语义搜索”(如Cursor使用的方案),适合精准获取关联信息;二是“文件系统+简单搜索”(如Claude Code使用的方案),适合快速定位文件级信息。

(4)上下文隔离:专人管专事,不串信息

复合Agent里,每个子Agent单独记自己的上下文,比如数据采集Agent只记采集相关的信息,数据分析Agent只记分析规则,避免互相干扰。

该策略在Manus的Wide Agents、Open Deep Research等项目中均有应用,是解决多任务上下文干扰的有效方案。

(5)上下文缓存:常用信息存身边,不用反复找

把常用信息(比如任务目标、报告格式)存在Agent“身边”,比如上下文或本地缓存,处理任务时直接用,不用反复查。

4. Agent的4种常见设计模式:不同场景选不同

Agent的“干活方式”(架构设计)决定了它适合什么场景,常见的有4种,对应不同需求:

(1)反应式架构(Reactive Architecture)

核心逻辑:收到指令直接执行,不用规划。比如智能家居收到“开灯”指令,直接亮灯,响应快但不会复杂规划。

适用场景:简单、实时性要求高的任务(如智能设备控制)。

(2)慎思式架构(Deliberative Architecture)

核心逻辑:先规划步骤再执行,比如生成财务报表,先想“采集数据→清洗→生成→审核”,再一步步做。能处理复杂任务,但响应慢。

适用场景:复杂、需要多步规划的任务(如财务报表生成),代表是IBM Watson。

(3)混合式架构(Hybrid Architecture)

核心逻辑:简单任务直接干,复杂任务先规划。比如智能客服,简单问题直接回答,复杂问题先查知识库再整理答案,平衡速度和能力。

适用场景:多任务混合的复杂场景(如智能客服),是目前最主流的模式。

(4)分层式架构(Hierarchical Architecture)

核心逻辑:分层次干活,上层定策略(比如自动驾驶的路线规划),下层做执行(控制转向、加速),各层独立优化,好维护、易扩展。

适用场景:大型复合Agent系统(如自动驾驶、企业级协同系统)。

三、实战:用复合Agent做企业市场调研

结合前面的知识,用“企业市场调研”这个常见场景,看看复合Agent怎么落地,以及MCP、Skill和上下文管理怎么配合。

1. 实战场景需求

需求:某科技公司要调研“AI Agent在企业服务的应用前景”,需要梳理政策、分析竞品、调研用户需求、预测市场规模,最后生成标准化报告并上传到公司知识库。

2. 系统架构设计(复合Agent+编排流)

把调研任务拆给4个专业子Agent,用编排流定好流程:

  1. 需求拆解Agent:接收总任务,拆解为4个子任务,定义各子任务的输入输出标准;
  2. 数据采集Agent:负责政策、竞品、用户需求数据的采集;
  3. 数据分析Agent:负责数据清洗、竞品对比、市场规模预测;
  4. 报告生成Agent:整合分析结果,生成标准化调研报告。

编排流规则:按“需求拆解→数据采集→数据分析→报告生成”顺序执行,每个环节结果要校验,失败最多重试3次,最终报告通过MCP上传到知识库。

3. 核心组件实现

(1)准备Skill工具包

给每个Agent配好现成工具,不用重新开发:

  • 数据采集Agent:加载“政策检索Skill”(爬取政府官网政策文档)、“竞品分析Skill”(解析竞品官网与财报)、“用户调研Skill”(处理问卷数据);
  • 数据分析Agent:加载“数据清洗Skill”(剔除无效数据)、“市场规模预测Skill”(基于时序模型预测);
  • 报告生成Agent:加载“调研报告模板Skill”(符合公司规范的PPT/Word模板)。

把这些工具包上传到公司的Skill仓库,Agent干活时按需调用。

(2)用MCP连接外部资源

通过MCP让Agent能访问外部系统,获取数据和同步结果:

  • 连接政府官网API、企业财报数据库(数据采集);
  • 连接企业问卷系统(获取用户调研数据);
  • 连接企业知识库API(上传最终报告)。

(3)上下文管理策略

调研要处理大量数据,用4种策略组合管理上下文:

  • 上下文卸载:将爬取的政策文档、竞品财报存储到企业文件系统,仅向Agent返回文件索引;
  • 上下文缩减:对用户问卷原始数据进行摘要,保留核心需求信息,剔除无效问卷记录;
  • 上下文隔离:为4个子Agent分配独立上下文窗口,避免数据采集的原始数据干扰报告生成的格式排版;
  • 上下文缓存:将“调研任务目标”“报告格式规范”缓存到各Agent上下文,避免重复查询。

4. 执行流程与效果验证

  1. 启动编排流:总任务触发后,编排流自动唤醒需求拆解Agent,拆解任务并分配给各子Agent;
  2. 数据采集阶段:数据采集Agent加载对应Skill,通过MCP获取外部数据,卸载冗余数据到文件系统;
  3. 数据分析阶段:数据分析Agent加载Skill处理数据,生成竞品对比表、市场规模预测曲线;
  4. 报告生成阶段:报告生成Agent加载模板Skill,整合分析结果生成标准化报告;
  5. 结果同步:通过MCP将报告上传到企业知识库,编排流记录任务完成状态。

验证效果:相比人工,效率提升60%以上,报告数据无遗漏,流程没出现重试超限的问题,满足企业调研需求。

四、总结:AI自主干活的发展趋势

从知识图谱到编排流,本质是AI从“被动记知识”到“主动干复杂活”的进化。未来的发展重点有三个:

  • 知识增强更全面:GraphRAG结合文本、图像、语音,能理解更复杂的知识关联;
  • Agent会自主进化:通过学习优化工具选择和任务规划,越用越聪明;
  • 编排流更智能:不用提前定死规则,能根据任务情况动态调整协同方式。

对开发者来说,搞懂这些技术的关系,掌握Agent的核心组件和实战方法,就能抓住AI工程化落地的关键机遇。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐