“在 LLM Agent 爆发的今天,我们缺的不是更聪明的模型,而是如何将模型能力安全、低延迟地映射到本地设备上。当 AI 不再满足于仅仅做一个‘聊天搭子’,它开始长出了‘手脚’——Clawdbot 就是那个连接大脑与手脚的神经中枢。”

在这里插入图片描述

01 -> For Users:它能帮你做什么?

(打破“对话框”的第四面墙)

基于 Clawdbot “Gateway + Node + Tools” 的架构,它能让 AI 突破“聊天框”的限制,直接操作你的设备和网络。

目前已集成:

1、消息平台集成 (Channels) —— 解决“在哪里对话”

  • WhatsApp, Telegram, Discord, Slack, Signal, iMessage

2、AI 模型集成 (The Brains) —— 解决“用谁的大脑”

  • 闭源大模型: Anthropic (Claude 3.5/4.5 系列)、OpenAI (GPT-4o/o1)、Google (Gemini)、xAI (Grok)。
  • 开源/本地模型: 支持通过 Ollama, MLX, llama.cpp 接入本地模型;支持 DeepSeek, Mistral, GLM 等。

3、生产力与知识库集成 (Skills & Tools) —— 解决“能干什么”
通过各种 Skills 访问你的私人数据或操作软件:

  • 笔记与任务: Notion, Obsidian, Apple Notes, Trello, Apple Reminders, Things 3, Bear Notes。
  • 代码与开发: GitHub (提交代码、管理 Issue)、Terminal/Shell 访问、浏览器自动化控制。
  • 邮件与日程: Gmail (读取、分类、撰写回复)、Google Calendar、Apple HealthKit (Oura/WHOOP 健身数据)。
  • 媒体与家居: Spotify, Sonos (控制音乐);Philips Hue, Home Assistant (智能家居控制)。

4、系统级集成 (The Gateway) —— 解决“自动化”

  • Cron Jobs: 支持设置定时任务(如每天早上 8 点发送晨报)。
  • Webhooks: 接收外部触发器,实现联动。
  • 持久化记忆: 所有的对话上下文和任务进度都存储在本地(Markdown/文件夹形式),不依赖云端数据库。

1.1 使用示例

1. 跨平台消息聚合与“替身”回复

场景描述: 你正在开车或开会,不方便看手机,但微信、Telegram、Slack 都在弹消息。
如何工作: Clawdbot 将所有渠道的消息汇总到一个你指定的“主控渠道”(比如 Telegram 私聊)。
Agent 动作: Agent 根据你设定的提示词(Prompt)自动总结长消息,甚至根据你的语气草拟回复,你只需回一个 “Yes” 即可发送。
价值: 信息流统一入口,减少在不同 App 间切换的焦虑。

2. 自动化“稍后阅读”与摘要 (网页/文档)

场景描述: 在手机上浏览到一篇很棒的技术长文或 PDF,但现在没时间细看。
如何工作: 直接把链接发给 Clawdbot。
Agent 动作: Gateway 调用服务器端的无头浏览器(Browser Tool)访问链接,提取正文,利用 LLM 进行深度摘要,并生成思维导图或 Key Takeaways 发回给你。如果是 PDF,它会进行解析和总结。
价值: 从“收藏夹吃灰”变为“即时知识消化”。

3. 智能家居与本地服务器运维

场景描述: 你是开发者,想在外面重启家里的某个 Docker 容器,或者查询 NAS 的磁盘剩余空间。
如何工作: 通过 Telegram 发送指令“重启 Nginx 容器”。
Agent 动作: Gateway 路由指令到家里的 Linux Node,执行 docker restart nginx,并将执行结果(日志片段)回传给你。
价值: 无需复杂的 VPN 或 SSH 客户端,通过聊天窗口完成轻量级运维。

4. 语音笔记与日程整理 (Voice-to-Action)

场景描述: 走路时突然想到一个点子,或者想起明天要给客户打电话。
如何工作: 给 Clawdbot 发送一条几十秒的语音消息。
Agent 动作: Clawdbot 调用 STT (语音转文字) 服务转录内容,识别出意图是“添加日程”。它会进一步调用日历 API (如 Google Calendar 工具) 帮你建好日程,并回复确认。
价值: 将非结构化的语音流转化为结构化的生产力动作。

5. 沉浸式“第二大脑”搜索

场景描述: 你需要查询一个多年前看过的技术点,或者现在的实时股票信息,但不想打开浏览器被广告干扰。
如何工作: 直接问 Clawdbot。
Agent 动作: 它不仅能联网搜索(调用 Google/Bing),还能检索你之前的聊天记录(如果配置了向量数据库记忆),融合实时信息和个人记忆给出答案。
价值: 去广告、去干扰的纯净信息获取。


1.2 使用起来 可能存在什么问题

Clawdbot 很强大,但它不是万能的,特别是在中国互联网环境下。

1.2.1 使用场景方面

1. 对中文 App 的支持边界

  • 微信 (WeChat): 支持但极高风险。

  • 原理: 通常通过 iPad 协议或 Web 协议挂载。

  • 现状: 腾讯风控非常严格,非官方客户端极易导致封号(从限制登录到永久封禁)。强烈建议不要用主号尝试。

  • 企业微信/飞书/钉钉: 有限支持。

  • 通常需要管理员权限开启 API 或 Bot 模式,个人用户很难直接接管自己的私人账号。

  • 小红书/抖音等内容平台: 不支持。

  • 这些 App 没有开放 API,且 Web 端有复杂的反爬虫机制,Clawdbot 难以作为“客户端”接管。

2. 对中文网站的支持

  • 一般支持: 如果网站主要由 HTML 构成(如知乎文章、公众号文章网页版),Clawdbot 的浏览器工具可以完美解析。
  • 支持度中等: 对于知乎、雪球、财联社等资讯类网站,Clawdbot 的浏览器工具(基于 Puppeteer/Playwright 逻辑)通常能搞定。
  • 困难支持: 如果网站强依赖 App 验证、复杂的滑块验证码(可能会让 Agent 的爬虫失效)、必须登录才能查看内容的网站(如某些很多研报平台)、以及极其复杂的动态渲染页面、或者由于 IP 原因(如果你的 Gateway 部署在海外)无法访问国内特定资源,体验会很差。

3. 封禁风险 (Ban Risks)

  • 🔴 高危区: 个人微信号。这是目前最大的雷区。
  • 🟡 中危区: WhatsApp (如果短时间大量发送消息)、Telegram (如果是新号且频繁主动私聊陌生人)。
  • 🟢 安全区: Slack, Discord, Telegram (正常使用),这些平台对 Bot 更加友好。

1.2.2 具体使用时

同时在使用 Clawdbot 时,你可能会遇到以下具体的摩擦点:

1. 部署维护门槛高 (Technical Debt)
这不是一个“下载即用”的 App。你需要懂 Docker,需要有一台 24小时运行的服务器 (或家里常开的 Mac/NAS),还需要配置 API Key (OpenAI/Anthropic/GLM) 和网络环境。
一旦服务器宕机或网络波动,你的“助手”就失联了,你需要自己去排查日志。

2. 成本问题 (Cost)

  • API 费用: Clawdbot 本身免费,但它背后的 LLM (如 GPT-4, Claude 3.5 Sonnet) 是按 Token 收费的。如果你让它处理长文档或高频对话,一个月的 API 账单可能不菲。
  • 硬件/云服务器费用: 运行 Gateway 需要计算资源。

3. 隐私与安全 (Security)
虽然是“本地优先”,但你实际上是把你的聊天记录、屏幕截图、Shell 权限都开放给了这个 Bot。
如果你的 Gateway 服务器被黑客入侵,或者 API Key 泄露,你的个人隐私将面临巨大风险。你需要自己负责配置防火墙和鉴权。

4. 移动端体验割裂
Clawdbot 在手机上没有独立的精美 App,它依附于 Telegram 或 WhatsApp 的聊天界面。这意味着你无法像用原生 App 那样进行复杂的交互(比如复杂的拖拽、多选、可视化的仪表盘),一切交互主要靠文字命令。


尽管使用方面有这么多的障碍,但是它的爆火已经说明大家对这样的工具非常期待、上述的问题迟早会被解决。


02 -> For Developers:它是如何工作的?

在这里插入图片描述

Clawdbot 是一个“本地优先”的个人 AI 网关 (Personal AI Gateway)。

它通过一个中心化的控制平面(Gateway),将你常用的所有通讯软件(微信、Telegram、Slack等)与你的本地设备(Mac/手机)连接起来,让 AI Agent 不仅能跨平台对话,还能直接调用本地设备的能力(如截屏、控制浏览器)。

2.1 核心架构

Clawdbot 的架构设计呈现出典型的 “中心辐射型” (Hub-and-Spoke) 拓扑结构,其核心理念是 “Gateway is King” (网关即一切)

1. 核心中枢:Gateway (控制平面)
这是整个系统的“大脑”和交通枢纽。

  • 角色: 它是一个运行在本地(如 Mac 或 Linux 服务器)的 WebSocket 服务。
  • 功能: 所有消息的收发、Agent 的调度、工具的执行、以及设备状态的管理,全都在这里统一处理。它不依赖云端 SaaS,数据掌握在你手中。

2. 输入/输出层:Channels (多渠道接入)
这是系统的“耳朵”和“嘴巴”,负责连接外部通讯平台。

  • 支持协议: 它集成了 WhatsApp, Telegram, Slack, Discord, Signal, iMessage 甚至 WebChat 等平台的协议。
  • 工作方式: 它将不同平台的私有协议(如 WhatsApp 的 Baileys, Telegram 的 grammY)统一转化为 Clawdbot 内部的标准消息格式,传给 Gateway。这意味着你可以在任何聊天软件里跟同一个 AI 对话。

3. 执行终端:Nodes (设备节点)
这是系统的“手脚”,负责物理设备的具体操作。

  • 差异化: Gateway 可以在云端运行,但 Node 必须运行在你的物理设备上(如 macOS App, iOS/Android 客户端)。
  • 能力: Node 通过 WebSocket 连接到 Gateway,暴露本地能力。例如:调用 Mac 的摄像头、进行屏幕录制、发送系统通知或执行 Shell 命令。

4. 智能引擎:Agent (Pi Agent)
这是系统的“思维”,通常是一个运行在 RPC 模式下的 AI 运行时。

  • 机制: 它接收 Gateway 转发的用户意图,决策需要调用哪些工具(Tool Streaming),并将结果返回。

2.2 示例说明

场景: 你在手机上用 Telegram 远程遥控家里的 Mac 截图并发送给你。
操作: 你在手机端的 Telegram 对机器人说:“帮我截一下 Mac 的屏幕,看看下载完成了吗?”

在这里插入图片描述

背后架构的执行流程 (How it works):

1. 消息接收 (Channel Layer)

  • Telegram 的 Connector 收到消息,将其标准化为内部 Event。
  • 架构支持:Channels 模块屏蔽了 Telegram 协议的复杂性。

2. 意图路由 (Gateway Layer)

  • Gateway 收到消息,将其转发给当前的 Agent。
  • 架构支持:Gateway 维护了会话上下文 (Session),知道你是管理员,拥有执行权限。

3. 决策与分发 (Agent Logic)

  • Agent 分析语义,决定调用 screen.recordsystem.screenshot 工具。
  • Agent 向 Gateway 发出“执行截图”的指令。

4. 远程执行 (Node Layer)

  • Gateway 查找已连接的设备列表,找到注册为“MacBook Pro”的 macOS Node。
  • Gateway 通过 WebSocket 向该 Node 发送指令。
  • 关键点:Gateway 可能跑在 Linux 服务器上,但它通过长连接“穿透”到了你家里的 Mac Node 上。

5. 结果回传 (Feedback Loop)

  • Mac 上的 Node 执行本地截图命令,上传图片/数据流回 Gateway。
  • Gateway 将图片转交给 Telegram Connector。

✅ 最终你在手机 Telegram 上收到了一张 Mac 的实时屏幕截图。


03 -> For Geeks:核心概念通俗解构

网关 (Gateway)

简单来说,网关(Gateway) 就像是一个小区的“大门卫室”,而 个人 AI 网关 则是专门为你个人服务的“AI 智能管家前台”。

在计算机网络中,网关是一个中间层。它介于“用户”和“后台服务”之间。
如果把服务器比作仓库,你(用户)去取货时,不能直接冲进仓库,而是要通过门卫室(网关)。这个门卫室负责:

  1. 身份验证: 检查你是否有权限进入(鉴权)。
  2. 分流引导: 告诉你要去 1 号库房还是 2 号库房(路由/负载均衡)。
  3. 安检: 拦截危险物品(安全防护/限流)。

个人 AI 网关
就是一个运行在你本地或私有云上的“统一中转站”。它不再只是传话筒,而是具备了智能大脑的门卫。
核心功能包括:

  • 统一入口: 不管后台接的是哪个大模型,你对外只暴露一个标准接口(通常兼容 OpenAI 格式)。
  • 模型路由: 根据你的指令复杂程度自动分发。简单的对话发给轻量模型(省钱/快),复杂的算法逻辑发给最强模型。
  • 敏感信息拦截: 在数据发往云端大模型之前,网关可以自动识别并脱敏(保护你的个人隐私或私密代码)。
  • 缓存加速: 相似的算法问题,网关如果存有之前的答案,就不再请求云端,直接秒回。
  • 成本监控: 帮你盯着各个 API Key 扣了多少钱,防止超支。

WebSocket 服务

一种让服务器和客户端(比如你的浏览器)进行“持续对话”的技术。

类比说明: 如果把传统的 HTTP 请求比作发短信(发一条,回一条),那么 WebSocket 就像是打通电话(通话不挂断,双方随时都能说话)。

RPC(Remote Procedure Call,远程过程调用)

RPC 是一种设计模式,它的目标是透明化网络调用。

核心思想就是: 让你像调用本地函数一样,去调用远程服务器上的函数。
在分布式系统或微服务架构中,RPC 是不同服务之间沟通的“普通话”。
RPC 屏蔽了底层的网络传输、序列化、协议转换等复杂细节。你不需要关心它是用 TCP 还是 HTTP 传输的,也不需要手动解析 JSON 或 Protobuf,它就像是在调用本地代码。

常见的 RPC 协议/框架:

  • gRPC (Google): 目前最流行,基于 HTTP/2,使用 Protobuf 定义接口,支持多语言。
  • Thrift (Facebook): 性能极高,支持非常多的编程语言。
  • Dubbo (Alibaba): 在 Java 生态中非常出名,自带治理功能。

TypeScript

  • 一层“马甲”: TypeScript = JavaScript + 类型系统。 它不是一门全新的语言,它最终会被编译(Transpile)成普通的 JS。你可以把 TS 想象成给 JS 穿上了一套“外骨骼装甲”,增强了稳定性和力量,但核心还是那个 JS。
  • “活的文档”: 在 TS 里,你定义 processTensor(data: TensorConfig),编辑器(VS Code)会实时告诉你 data 里有哪些字段。代码即文档。
  • “编译期检查”: JS 是动态语言(运行时才发现错),TS 引入了静态检查。

04 相关链接

如果这篇文章对你有帮助,欢迎关注我的同名公众号。
我将持续分享 AI 工程化、Agent 实战及算法应用相关的深度内容。我们下期见。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐