Build 03 / 工具进化：别让环境配置，杀死了 Agent 的最后一点生命力

拒绝“烧钱”的暴力美学，Build 03 深度拆解 EchoMindBot 工具进化逻辑。本篇揭秘如何通过 Rust 构建安全沙箱与便携运行时，实现 Skills 与 MCP 的完美协同。消灭配置地狱，让 Kimi 2.5 等模型回归工程实战，为非技术用户打造开箱即用的超能力。

古_月

295人浏览 · 2026-02-13 14:00:21

古_月 · 2026-02-13 14:00:21 发布

最近 AI 圈有个怪象：MCP（模型上下文协议）刚火，大家一窝蜂改架构；Skills（技能）概念一出，又有人唱衰 MCP 不是未来。这种非黑即白的二元论，本质上是开发者在技术选型上的偷懒。这个也确实是圈子里面很多好友在辩论的方向，这就跟大家喜欢争论Java 、 Python 还是Php 是未来？最终也没有哪个衰落掉，只是适用场景不同而已。

在EchoMindBot的开发逻辑里，技术没有对错，只有场景适配。我从未想过用 Skills 去“杀死” MCP，也并不认为应该死磕MCP实现所有调度，而是通过 Rust 实现了一套分层协作架构：MCP 负责“标准化连接”，Skills 负责“专业场景定义”（不拒绝后面有了新的技术方案，我还是会拥抱新的技术哒）。

1. 技术辩证法：为什么我们需要“混血”架构？

如果你把所有逻辑都写成Skills，系统提示词（System Prompt）会迅速爆炸，不仅 Token 贵得离谱，AI 逻辑也会因为干扰太多而变得极其不稳定。最搞笑的是大多数技术博主根本不在乎用户的死活，反正花的也不是自己的钱，只要看上去很炫“我有流量就好了”。但是如果你把所有小功能都封成MCP，频繁启动子进程的开销和通信延迟，会让你觉得是在用旧时代的拨号上网。应该很少有人真的这么无聊尝试过改造自己的系统吧，全部小颗粒度实现MCP化。不好意思，我就是这么无聊的人。有一点好处，一轮对话我们可以去泡个咖啡了，回到了十几年前的状态，太棒了！！！

我目前的最优解（压缩后，token浪费的消耗量减少70%，虽然我也用得起，但是我也不想浪费。更何况，最终的使用是要交付到个人手里的，过度的浪费是没意义的。）：

MCP (通用工具层)：搞定标准化的外部接入，如 Git、PostgreSQL、Google Drive 等。

Skills (专业指令层)：负责业务场景的定义。它包含了具体的指令集（Instructions）和对 MCP 工具的调度策略，告诉 AI 在什么场景下该用哪件工具。

2. 核心痛点：用户不是你的“环境维护员”

很多开发者觉得 MCP 灵活，是因为他们潜意识里觉得用户应该懂什么是环境变量，应该懂怎么装 Node.js。但 EchoMindBot 的目标是普通用户。很多开发者应该没尝试跟用户沟通过“命令行是什么？”、“那个黑框框怎么弄？”，有点点“何不食肉糜”的既视感，你可以跟我讨论不同的系统结构、调用链路、工具类库的性能，但是这些都不应该给用户暴露出来。

为了实现“开箱即用”且“绝对安全”，我们在 runtime_manager.rs 里写了一套极其硬核的方案：

内置便携运行时 (Portable Runtimes)：应用会自动在受控目录下管理独立的 Node.js 20、Python 3.12 和 uv。这种方式确保了环境完全不污染用户的全局系统。其实很多人、很多工具也尝试过这种方式，但是方式是打包到应用内，我觉得这个方案有很大的问题，毕竟不是所有人都需要这么多的工具，这么臃肿的安装包，可能会劝退好多人的。（其实有一方面原因，CDN下载成本会挺贵，钱包羞涩，毕竟个人出钱，安装包还是要尽量小一些。就像“懒”会促进生产力的提升一样，“穷”会促使人想办法优化成本结构。）

安全沙箱隔离：每一个 MCP 服务都运行在独立的隔离进程中。哪怕你装了一个带 Bug 的第三方插件，它也只能在自己的“小黑屋”里崩溃，绝不可能波及主程序的稳定与安全。

一键式卸载无残留：所有的运行时和插件数据都在受控路径下。想卸载？一键重置（Reset），瞬间抹除所有“电子垃圾”，不给用户电脑留下一丁点负担。

3. 代码实战：如何优雅地分发工具？

在 src-tauri/src/ai.rs 的核心循环中，我们设计了一套精密的工具分发逻辑。以下是实现“指令截获”的核心代码片段：

// ai.rs: 核心工具调用分发逻辑
pub async fn try_execute_tool_call_with_context(
 app: AppHandle,
 tool_name: &str,
 arguments: &str,
) -> Result<String, String> {
 // 1. 优先匹配 Native 原生技能 (如 web_search, web_fetch)
 if let Some(result) = execute_native_skill(tool_name, arguments).await {
 return Ok(result);
 }

 // 2. 匹配 MCP 外部工具 (通过 stdio 管道进行 JSON-RPC 通信)
 if let Some(mcp_result) = mcp::execute_mcp_tool(app, tool_name, arguments).await? {
 return Ok(mcp_result);
 }

 // 3. 匹配本地应用操控 (基于 enigo 的窗口管理、截图、输入模拟)
 if let Some(auto_result) = local_automation::dispatch(tool_name, arguments).await {
 return Ok(auto_result);
 }

 Err(format!("未找到工具: {}", tool_name))
}

4. 技能定义：让 AI 真正学会“用扳手”

一个技能不仅仅是一个 API。在我们的技能体系中，它是带有“灵魂”的操作指南。

以浏览器自动化技能为例，我们在 builtinSkills.ts 中定义的 instructions 实际上是在教模型如何使用Playwright MCP：

技能实例：浏览器自动化

可用操作：

导航：打开网页 browser_navigate(url)，前进/后退。

交互：点击元素 browser_click(selector)，输入文本 browser_type(selector, text)。

获取信息：网页截图 browser_screenshot()，抓取 HTML 或文本内容。

场景指导：当用户说“登录网站并截图”时，AI 会自动拆解为：导航 -> 输入文本 -> 点击登录 -> 截图反馈。