打破聊天框的“第四面墙”:Clawdbot,给你的大模型装上“手脚”
在手机上浏览到一篇很棒的技术长文或 PDF,但现在没时间细看。
“在 LLM Agent 爆发的今天,我们缺的不是更聪明的模型,而是如何将模型能力安全、低延迟地映射到本地设备上。当 AI 不再满足于仅仅做一个‘聊天搭子’,它开始长出了‘手脚’——Clawdbot 就是那个连接大脑与手脚的神经中枢。”

01 -> For Users:它能帮你做什么?
(打破“对话框”的第四面墙)
基于 Clawdbot “Gateway + Node + Tools” 的架构,它能让 AI 突破“聊天框”的限制,直接操作你的设备和网络。
目前已集成:
1、消息平台集成 (Channels) —— 解决“在哪里对话”
- WhatsApp, Telegram, Discord, Slack, Signal, iMessage
2、AI 模型集成 (The Brains) —— 解决“用谁的大脑”
- 闭源大模型: Anthropic (Claude 3.5/4.5 系列)、OpenAI (GPT-4o/o1)、Google (Gemini)、xAI (Grok)。
- 开源/本地模型: 支持通过 Ollama, MLX, llama.cpp 接入本地模型;支持 DeepSeek, Mistral, GLM 等。
3、生产力与知识库集成 (Skills & Tools) —— 解决“能干什么”
通过各种 Skills 访问你的私人数据或操作软件:
- 笔记与任务: Notion, Obsidian, Apple Notes, Trello, Apple Reminders, Things 3, Bear Notes。
- 代码与开发: GitHub (提交代码、管理 Issue)、Terminal/Shell 访问、浏览器自动化控制。
- 邮件与日程: Gmail (读取、分类、撰写回复)、Google Calendar、Apple HealthKit (Oura/WHOOP 健身数据)。
- 媒体与家居: Spotify, Sonos (控制音乐);Philips Hue, Home Assistant (智能家居控制)。
4、系统级集成 (The Gateway) —— 解决“自动化”
- Cron Jobs: 支持设置定时任务(如每天早上 8 点发送晨报)。
- Webhooks: 接收外部触发器,实现联动。
- 持久化记忆: 所有的对话上下文和任务进度都存储在本地(Markdown/文件夹形式),不依赖云端数据库。
1.1 使用示例
1. 跨平台消息聚合与“替身”回复
场景描述: 你正在开车或开会,不方便看手机,但微信、Telegram、Slack 都在弹消息。
如何工作: Clawdbot 将所有渠道的消息汇总到一个你指定的“主控渠道”(比如 Telegram 私聊)。
Agent 动作: Agent 根据你设定的提示词(Prompt)自动总结长消息,甚至根据你的语气草拟回复,你只需回一个 “Yes” 即可发送。
价值: 信息流统一入口,减少在不同 App 间切换的焦虑。
2. 自动化“稍后阅读”与摘要 (网页/文档)
场景描述: 在手机上浏览到一篇很棒的技术长文或 PDF,但现在没时间细看。
如何工作: 直接把链接发给 Clawdbot。
Agent 动作: Gateway 调用服务器端的无头浏览器(Browser Tool)访问链接,提取正文,利用 LLM 进行深度摘要,并生成思维导图或 Key Takeaways 发回给你。如果是 PDF,它会进行解析和总结。
价值: 从“收藏夹吃灰”变为“即时知识消化”。
3. 智能家居与本地服务器运维
场景描述: 你是开发者,想在外面重启家里的某个 Docker 容器,或者查询 NAS 的磁盘剩余空间。
如何工作: 通过 Telegram 发送指令“重启 Nginx 容器”。
Agent 动作: Gateway 路由指令到家里的 Linux Node,执行 docker restart nginx,并将执行结果(日志片段)回传给你。
价值: 无需复杂的 VPN 或 SSH 客户端,通过聊天窗口完成轻量级运维。
4. 语音笔记与日程整理 (Voice-to-Action)
场景描述: 走路时突然想到一个点子,或者想起明天要给客户打电话。
如何工作: 给 Clawdbot 发送一条几十秒的语音消息。
Agent 动作: Clawdbot 调用 STT (语音转文字) 服务转录内容,识别出意图是“添加日程”。它会进一步调用日历 API (如 Google Calendar 工具) 帮你建好日程,并回复确认。
价值: 将非结构化的语音流转化为结构化的生产力动作。
5. 沉浸式“第二大脑”搜索
场景描述: 你需要查询一个多年前看过的技术点,或者现在的实时股票信息,但不想打开浏览器被广告干扰。
如何工作: 直接问 Clawdbot。
Agent 动作: 它不仅能联网搜索(调用 Google/Bing),还能检索你之前的聊天记录(如果配置了向量数据库记忆),融合实时信息和个人记忆给出答案。
价值: 去广告、去干扰的纯净信息获取。
1.2 使用起来 可能存在什么问题
Clawdbot 很强大,但它不是万能的,特别是在中国互联网环境下。
1.2.1 使用场景方面
1. 对中文 App 的支持边界
-
微信 (WeChat): 支持但极高风险。
-
原理: 通常通过 iPad 协议或 Web 协议挂载。
-
现状: 腾讯风控非常严格,非官方客户端极易导致封号(从限制登录到永久封禁)。强烈建议不要用主号尝试。
-
企业微信/飞书/钉钉: 有限支持。
-
通常需要管理员权限开启 API 或 Bot 模式,个人用户很难直接接管自己的私人账号。
-
小红书/抖音等内容平台: 不支持。
-
这些 App 没有开放 API,且 Web 端有复杂的反爬虫机制,Clawdbot 难以作为“客户端”接管。
2. 对中文网站的支持
- 一般支持: 如果网站主要由 HTML 构成(如知乎文章、公众号文章网页版),Clawdbot 的浏览器工具可以完美解析。
- 支持度中等: 对于知乎、雪球、财联社等资讯类网站,Clawdbot 的浏览器工具(基于 Puppeteer/Playwright 逻辑)通常能搞定。
- 困难支持: 如果网站强依赖 App 验证、复杂的滑块验证码(可能会让 Agent 的爬虫失效)、必须登录才能查看内容的网站(如某些很多研报平台)、以及极其复杂的动态渲染页面、或者由于 IP 原因(如果你的 Gateway 部署在海外)无法访问国内特定资源,体验会很差。
3. 封禁风险 (Ban Risks)
- 🔴 高危区: 个人微信号。这是目前最大的雷区。
- 🟡 中危区: WhatsApp (如果短时间大量发送消息)、Telegram (如果是新号且频繁主动私聊陌生人)。
- 🟢 安全区: Slack, Discord, Telegram (正常使用),这些平台对 Bot 更加友好。
1.2.2 具体使用时
同时在使用 Clawdbot 时,你可能会遇到以下具体的摩擦点:
1. 部署维护门槛高 (Technical Debt)
这不是一个“下载即用”的 App。你需要懂 Docker,需要有一台 24小时运行的服务器 (或家里常开的 Mac/NAS),还需要配置 API Key (OpenAI/Anthropic/GLM) 和网络环境。
一旦服务器宕机或网络波动,你的“助手”就失联了,你需要自己去排查日志。
2. 成本问题 (Cost)
- API 费用: Clawdbot 本身免费,但它背后的 LLM (如 GPT-4, Claude 3.5 Sonnet) 是按 Token 收费的。如果你让它处理长文档或高频对话,一个月的 API 账单可能不菲。
- 硬件/云服务器费用: 运行 Gateway 需要计算资源。
3. 隐私与安全 (Security)
虽然是“本地优先”,但你实际上是把你的聊天记录、屏幕截图、Shell 权限都开放给了这个 Bot。
如果你的 Gateway 服务器被黑客入侵,或者 API Key 泄露,你的个人隐私将面临巨大风险。你需要自己负责配置防火墙和鉴权。
4. 移动端体验割裂
Clawdbot 在手机上没有独立的精美 App,它依附于 Telegram 或 WhatsApp 的聊天界面。这意味着你无法像用原生 App 那样进行复杂的交互(比如复杂的拖拽、多选、可视化的仪表盘),一切交互主要靠文字命令。
尽管使用方面有这么多的障碍,但是它的爆火已经说明大家对这样的工具非常期待、上述的问题迟早会被解决。
02 -> For Developers:它是如何工作的?

Clawdbot 是一个“本地优先”的个人 AI 网关 (Personal AI Gateway)。
它通过一个中心化的控制平面(Gateway),将你常用的所有通讯软件(微信、Telegram、Slack等)与你的本地设备(Mac/手机)连接起来,让 AI Agent 不仅能跨平台对话,还能直接调用本地设备的能力(如截屏、控制浏览器)。
2.1 核心架构
Clawdbot 的架构设计呈现出典型的 “中心辐射型” (Hub-and-Spoke) 拓扑结构,其核心理念是 “Gateway is King” (网关即一切)。
1. 核心中枢:Gateway (控制平面)
这是整个系统的“大脑”和交通枢纽。
- 角色: 它是一个运行在本地(如 Mac 或 Linux 服务器)的 WebSocket 服务。
- 功能: 所有消息的收发、Agent 的调度、工具的执行、以及设备状态的管理,全都在这里统一处理。它不依赖云端 SaaS,数据掌握在你手中。
2. 输入/输出层:Channels (多渠道接入)
这是系统的“耳朵”和“嘴巴”,负责连接外部通讯平台。
- 支持协议: 它集成了 WhatsApp, Telegram, Slack, Discord, Signal, iMessage 甚至 WebChat 等平台的协议。
- 工作方式: 它将不同平台的私有协议(如 WhatsApp 的 Baileys, Telegram 的 grammY)统一转化为 Clawdbot 内部的标准消息格式,传给 Gateway。这意味着你可以在任何聊天软件里跟同一个 AI 对话。
3. 执行终端:Nodes (设备节点)
这是系统的“手脚”,负责物理设备的具体操作。
- 差异化: Gateway 可以在云端运行,但 Node 必须运行在你的物理设备上(如 macOS App, iOS/Android 客户端)。
- 能力: Node 通过 WebSocket 连接到 Gateway,暴露本地能力。例如:调用 Mac 的摄像头、进行屏幕录制、发送系统通知或执行 Shell 命令。
4. 智能引擎:Agent (Pi Agent)
这是系统的“思维”,通常是一个运行在 RPC 模式下的 AI 运行时。
- 机制: 它接收 Gateway 转发的用户意图,决策需要调用哪些工具(Tool Streaming),并将结果返回。
2.2 示例说明
场景: 你在手机上用 Telegram 远程遥控家里的 Mac 截图并发送给你。
操作: 你在手机端的 Telegram 对机器人说:“帮我截一下 Mac 的屏幕,看看下载完成了吗?”

背后架构的执行流程 (How it works):
1. 消息接收 (Channel Layer)
- Telegram 的 Connector 收到消息,将其标准化为内部 Event。
- 架构支持:Channels 模块屏蔽了 Telegram 协议的复杂性。
↓
2. 意图路由 (Gateway Layer)
- Gateway 收到消息,将其转发给当前的 Agent。
- 架构支持:Gateway 维护了会话上下文 (Session),知道你是管理员,拥有执行权限。
↓
3. 决策与分发 (Agent Logic)
- Agent 分析语义,决定调用
screen.record或system.screenshot工具。 - Agent 向 Gateway 发出“执行截图”的指令。
↓
4. 远程执行 (Node Layer)
- Gateway 查找已连接的设备列表,找到注册为“MacBook Pro”的 macOS Node。
- Gateway 通过 WebSocket 向该 Node 发送指令。
- 关键点:Gateway 可能跑在 Linux 服务器上,但它通过长连接“穿透”到了你家里的 Mac Node 上。
↓
5. 结果回传 (Feedback Loop)
- Mac 上的 Node 执行本地截图命令,上传图片/数据流回 Gateway。
- Gateway 将图片转交给 Telegram Connector。
✅ 最终你在手机 Telegram 上收到了一张 Mac 的实时屏幕截图。
03 -> For Geeks:核心概念通俗解构
网关 (Gateway)
简单来说,网关(Gateway) 就像是一个小区的“大门卫室”,而 个人 AI 网关 则是专门为你个人服务的“AI 智能管家前台”。
在计算机网络中,网关是一个中间层。它介于“用户”和“后台服务”之间。
如果把服务器比作仓库,你(用户)去取货时,不能直接冲进仓库,而是要通过门卫室(网关)。这个门卫室负责:
- 身份验证: 检查你是否有权限进入(鉴权)。
- 分流引导: 告诉你要去 1 号库房还是 2 号库房(路由/负载均衡)。
- 安检: 拦截危险物品(安全防护/限流)。
个人 AI 网关
就是一个运行在你本地或私有云上的“统一中转站”。它不再只是传话筒,而是具备了智能大脑的门卫。
核心功能包括:
- 统一入口: 不管后台接的是哪个大模型,你对外只暴露一个标准接口(通常兼容 OpenAI 格式)。
- 模型路由: 根据你的指令复杂程度自动分发。简单的对话发给轻量模型(省钱/快),复杂的算法逻辑发给最强模型。
- 敏感信息拦截: 在数据发往云端大模型之前,网关可以自动识别并脱敏(保护你的个人隐私或私密代码)。
- 缓存加速: 相似的算法问题,网关如果存有之前的答案,就不再请求云端,直接秒回。
- 成本监控: 帮你盯着各个 API Key 扣了多少钱,防止超支。
WebSocket 服务
一种让服务器和客户端(比如你的浏览器)进行“持续对话”的技术。
类比说明: 如果把传统的 HTTP 请求比作发短信(发一条,回一条),那么 WebSocket 就像是打通电话(通话不挂断,双方随时都能说话)。
RPC(Remote Procedure Call,远程过程调用)
RPC 是一种设计模式,它的目标是透明化网络调用。
核心思想就是: 让你像调用本地函数一样,去调用远程服务器上的函数。
在分布式系统或微服务架构中,RPC 是不同服务之间沟通的“普通话”。
RPC 屏蔽了底层的网络传输、序列化、协议转换等复杂细节。你不需要关心它是用 TCP 还是 HTTP 传输的,也不需要手动解析 JSON 或 Protobuf,它就像是在调用本地代码。
常见的 RPC 协议/框架:
- gRPC (Google): 目前最流行,基于 HTTP/2,使用 Protobuf 定义接口,支持多语言。
- Thrift (Facebook): 性能极高,支持非常多的编程语言。
- Dubbo (Alibaba): 在 Java 生态中非常出名,自带治理功能。
TypeScript
- 一层“马甲”: TypeScript = JavaScript + 类型系统。 它不是一门全新的语言,它最终会被编译(Transpile)成普通的 JS。你可以把 TS 想象成给 JS 穿上了一套“外骨骼装甲”,增强了稳定性和力量,但核心还是那个 JS。
- “活的文档”: 在 TS 里,你定义
processTensor(data: TensorConfig),编辑器(VS Code)会实时告诉你 data 里有哪些字段。代码即文档。 - “编译期检查”: JS 是动态语言(运行时才发现错),TS 引入了静态检查。
04 相关链接
- 官网: https://clawd.bot/
- Github: https://github.com/clawdbot/clawdbot
- TypeScript: https://www.typescriptlang.org/docs/handbook/typescript-from-scratch.html
- Ts实战: https://typehero.dev/
如果这篇文章对你有帮助,欢迎关注我的同名公众号。
我将持续分享 AI 工程化、Agent 实战及算法应用相关的深度内容。我们下期见。
更多推荐



所有评论(0)