【0】kilo & Agent 理解

AI Agent是一类以大语言模型（LLM）为核心，具备自主认知、决策、行动与迭代能力的智能体。其核心目标是接收用户高层级目标或模糊需求后，无需人工逐步干预，通过整合记忆、规划任务、调用工具、执行反馈的闭环，自主完成问题解决，本质是"模拟人类思考与行动逻辑"的智能化任务处理载体。

Ftsom

634人浏览 · 2026-01-23 17:01:36

Ftsom · 2026-01-23 17:01:36 发布

Kilo 理解：基于ReAct范式的Agent运行机制

本文以AI Agent设计范式为核心，从基础定义、核心组件、主流架构入手，重点拆解Kilo基于ReAct架构的运行流程，概括说明其如何通过"思考-行动-观察"循环解决用户问题，兼顾架构逻辑性与落地可行性。

一、Agent定义

AI Agent是一类以大语言模型（LLM）为核心，具备自主认知、决策、行动与迭代能力的智能体。其核心目标是接收用户高层级目标或模糊需求后，无需人工逐步干预，通过整合记忆、规划任务、调用工具、执行反馈的闭环，自主完成问题解决，本质是"模拟人类思考与行动逻辑"的智能化任务处理载体。
在这里插入图片描述

二、Agent核心组件

1. 大脑 - LLM

作为Agent的核心决策中枢，承担所有关键认知任务，核心能力覆盖三点：一是指令遵循，精准解析用户复杂需求、约束条件（如时间、精度要求），明确任务核心目标；二是推理与规划，基于需求进行逻辑拆解，制定分步执行策略，同时在执行中评估中间结果、修正偏差；三是知识整合，融合预训练知识与任务过程中的新信息（如工具返回结果、用户补充反馈），形成综合判断。

2. 记忆模块

用于存储与检索全链路信息，突破LLM无状态与上下文长度限制，分为两级存储：

短期记忆：存储当前任务会话内的上下文信息，包括用户初始需求、规划步骤、已执行结果、实时工具反馈等，支撑单轮任务的即时决策；
长期记忆：通过向量数据库实现持久化存储，涵盖跨会话用户偏好、历史任务经验、常用工具调用规则、故障处理方案等，为后续任务提供经验复用与优化依据。

3. 规划模块

负责将用户抽象目标转化为具体可执行步骤，核心流程包含两步：

任务分解：将复杂任务拆解为粒度适中的子任务序列，明确各子任务的依赖关系、优先级、执行标准（如"先调用搜索工具获取基础数据，再通过代码解释器计算分析"）；
反思与修正：实时接收执行反馈，评估中间结果是否符合预期，若出现偏差（如工具调用失败、结果不达标），立即调整后续规划步骤，避免无效执行。

4. 工具使用

Agent与外部系统、资源交互的核心接口，突破纯语言生成的能力边界，工具类型分为两类：

通用工具：涵盖搜索、代码解释器、数学计算、文件I/O等基础工具，满足常规任务需求；
特定工具：支持API调用、数据库查询、业务系统（如CRM/ERP）操作等定制化工具，适配专业场景任务。

5. 执行引擎

承接大脑与规划模块的决策，负责具体落地执行，核心职责包括：按步骤调用指定工具、处理工具返回结果（格式标准化、无效信息过滤）、将结果反馈至大脑与记忆模块，同时监控执行过程中的异常，确保任务闭环推进。

三、Agent的主流架构

当前AI Agent主流设计范式分为三类，各有优劣与适用场景：

1. ReAct（Reasoning + Acting）

核心理念：将推理与行动交错迭代，形成"思考-行动-观察"的闭环循环，无需提前生成完整计划，边思考边执行。优点是思路清晰、易于调试，灵活性强，能快速响应执行中的异常与新信息；缺点是依赖单次推理质量，存在陷入无限循环的风险，适用于动态性强、需求边界模糊的任务。

2. Plan-and-Execute

核心理念：严格区分规划与执行两个阶段，先耗时生成完整详细的计划，再按计划逐步执行。优点是对长周期、目标明确的复杂任务效率更高，目标感强；缺点是早期规划错误会导致全流程偏差，灵活性差，难以适配动态场景。

3. Multi-Agent Collaboration

核心理念：构建多个具备专属角色与专长的Agent，通过协作解决单一Agent难以应对的跨领域复杂问题。协作模式包括角色扮演、相互评审、流水线作业等；优点是能处理高度复杂任务，结果质量更优；缺点是系统设计复杂，Agent间协调成本高，运维难度大。

4. 主流架构对比

为更清晰区分三种范式的适配场景与优劣，以下从核心特性、关键优势、主要不足、适用场景四个维度进行对比：

架构范式	核心特性	关键优势	主要不足	适用场景
ReAct	推理与行动交错迭代，无预设完整计划，循环推进	灵活性强，易调试，能快速响应异常与新信息	依赖单次推理质量，存在无限循环风险	动态性强、需求边界模糊、需实时适配的任务
Plan-and-Execute	规划与执行阶段分离，先制定完整计划再落地	目标感强，对长周期、目标明确任务效率高	早期规划错误影响全局，灵活性差	流程固定、目标清晰、无频繁动态调整的任务
Multi-Agent Collaboration	多角色Agent协同，分工协作解决复杂问题	可处理跨领域复杂任务，结果质量更优	系统设计复杂，协调与运维成本高	跨领域、高复杂度、需多专长协同的任务

四、Kilo的核心运行流程

Kilo采用基于原生工具调用的流式迭代执行模式，与标准ReAct架构有所不同。核心特征是LLM通过结构化工具调用与系统交互，而非传统的"思考文本+行动标签"模式。

1. 核心运行流程

用户输入任务
│
├── Task 初始化
│   ├── 构建系统提示词（SYSTEM_PROMPT）
│   └── 加载工具集（基于 Mode 配置）
│
├── 流式执行循环
│   ├── 1. 构建请求消息
│   │   └── 合并用户输入、历史消息、上下文
│   │
│   ├── 2. 发起 API 流式调用
│   │   └── 实时接收 LLM 响应流
│   │
│   ├── 3. 解析工具调用
│   │   └── 识别工具名称和参数
│   │
│   ├── 4. 执行工具
│   │   └── 调用工具并获取结果
│   │
│   └── 5. 判断继续条件
│       ├── 完成（attempt_completion）→ 结束
│       ├── 工具调用 → 返回步骤1（循环）
│       └── 需用户确认 → 暂停等待
│
└── 任务完成
    ├── 保存会话历史（apiConversationHistory）
    └── 持久化状态到磁盘

核心机制：LLM在流式响应中返回工具调用请求，系统执行工具后将结果反馈给LLM，LLM基于结果决定下一步行动，如此循环直至任务完成或需要用户介入。

2. 核心组件

Provider（提供者层）：统一的API调用接口，支持50+模型提供商，采用流式处理实时接收响应，兼容Native和XML两种工具调用协议。

Tools（工具层）：内置工具（文件读写、代码编辑、命令执行、浏览器操作等）、MCP工具（集成外部服务）、自定义工具，不同模式配置不同工具集。

Context（上下文管理）：会话历史存储完整消息记录，接近token限制时自动触发智能压缩（优先AI总结，降级滑动窗口截断），文件追踪避免重复读取，支持@mentions等方式注入上下文。

Mode（模式系统）：预设Architect/Coder/Debugger等模式，每个模式有特定的系统提示词、行为规范和工具配置，适配不同场景需求。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026年最新AI大模型学习路线，零基础入门到精通（非常详细）收藏这一篇就够了！

2048 AI社区

国产麒麟系统安装部署OpenClaw完整指南（适配V10/VSP）国产操作系统的AI智能体部署

2048 AI社区

UXbot 是什么？一句指令生成完整应用的 AI 工具

UXbot 是一款 AI 驱动的无代码（No-Code）应用构建工具，由人工智能技术提供核心能力。其核心功能是：用户只需通过自然语言描述产品需求，系统即可自动生成完整的多页面应用——包含产品逻辑图、用户旅程规划、高保真可交互界面，以及可直接交付给研发团队使用的多种格式原生代码。无代码意味着：整个过程中，用户无需编写任何一行代码。AI 负责将产品描述翻译成结构化的应用架构，用户只需确认和调整生成结果

2048 AI社区

所有评论(0)

查看更多评论

Ftsom

@l_dongyang

已为社区贡献5条内容