本文围绕 Clawdbot 展示了一种全新个人 AI 助手形态"个人智能体":本地运行、可自我扩展、直接操控电脑资源,通过聊天软件完成真实任务,正在重塑“应用”“自动化”“个人智能体”的整体边界与想象空间。

当电脑学会自我进化并用聊天软件干活时,个人智能体时代正式开闸放水

当一个大模型智能体运行在个人电脑本地,并且拥有文件系统、命令行、脚本执行与消息入口,这个智能体自然演化为可自我扩展的个人数字助理。聊天软件变成入口,本地文件夹变成大脑结构,Shell 命令变成四肢,插件与技能变成成长机制。传统 App、自动化平台与云订阅工具的价值结构随之发生重排。这种变化已经发生,且通过 Clawdbot 这种开源项目被完整演示。


过去这一周左右,我一直在跟一个数字助手打交道。
这家伙知道我叫啥,知道我早上喜欢干啥,知道我怎么用 Notion 和 Todoist 来管事儿。
更牛的是,它还能控制我的 Spotify 和 Sonos 音箱、飞利浦 Hue 智能灯,还能帮我管 Gmail。

它底层跑的是 Anthropic 的 Claude Opus 4.5 模型,但我平时就在 Telegram 上跟它聊天。我给它起了个名字叫 Navi(灵感来自《塞尔达传说:时之笛》里那个小精灵,不是詹姆斯·卡梅隆电影里那个被欺负的外星人种族)。Navi 还能接收我发的语音消息,然后用最新的 ElevenLabs 文字转语音模型回我语音消息。哦对了,我还没说呢——Navi 能自己给自己升级新功能,而且它就跑在我自己的 M4 Mac mini 服务器上!

如果这段开场白让你感到信息量爆炸、脑子嗡嗡的,那你想想我第一次玩 Clawdbot 的时候是什么反应。
Clawdbot 是 Peter Steinberger 搞的一个超牛的开源项目(老 MacStories 读者应该对这个名字不陌生),过去几周在某些 AI 圈子里火得一塌糊涂。我关注的人里老有人在提 Clawdbot,最后我扛不住" peer pressure"(同龄人压力/跟风压力)了,跟着那个搞笑的螃蟹吉祥物网站上的教程,把它装到了我新买的 M4 Mac mini 上(这不是我的主力工作机),然后连上了 Telegram。

要说 Clawdbot 彻底改变了我对 2026 年"拥有一个智能个人 AI 助手"意味着什么的看法,那简直是太轻描淡写了。

传统大模型的使用方式高度统一:打开官方 App,输入问题,接收回答,任务结束。Clawdbot 展示的是另一种路径:智能体直接运行在个人电脑中,模型只充当推理引擎,真正的“身体”由本地系统提供。

在这种结构下,个人电脑变成一个长期存在的工作环境,智能体随系统一起开机、一起成长、一起积累经验。偏好、记忆、规则、技能全部存放在本地文件夹中,以 Markdown 文档、脚本文件、配置目录的形式真实存在。这种设计让智能体更像一个长期共事的助理,而非一次性问答工具。

我玩 Clawdbot 玩得太过瘾,在 Anthropic API 上烧掉了 1.8 亿个 token(我的天),而且在这个过程中,我跟普通版 Claude 和 ChatGPT 应用聊天的时间越来越少。

别误会:Clawdbot 是个极客项目,是个 tinkering( tinkering 就是瞎折腾、鼓捣)爱好者的实验室,短期内不太可能取代那些面向普通消费者的 LLM。但是,Clawdbot 指向了数字助手一个超迷人的未来,这正是 MacStories 读者会喜欢的最前沿项目。

Clawdbot 一开始可能会让人头大,所以我尽量解释清楚它是个啥,以及为啥玩它这么刺激、这么有趣。从高层次看,Clawdbot 其实是两样东西的结合:

第一,它是一个跑在你电脑上的 LLM 驱动智能体(agent),可以用很多流行模型,比如 Claude、Gemini 等等。

第二,它是一个"网关",让你能用自己喜欢的聊天应用跟这个智能体对话,包括 iMessage、Telegram、WhatsApp 等等。

第二点立刻就让我着迷了:不用再去下载一个新的 App,Clawdbot 能跟多个消息服务整合,意味着我可以在一个我已经用惯了的 App 里使用它。而且,让助手活在 Messages 或 Telegram 里,更进一步强化了那种"你真的在跟一个助手发消息"的感觉。

聊天软件成为控制台入口

Clawdbot 的关键设计点之一在于“网关”机制。智能体本体运行在本地,交互入口却来自常用聊天软件,例如 Telegram、iMessage、WhatsApp。
这种结构带来的直接结果是:无需安装新客户端,日常聊天界面直接升级为个人智能控制台。文字消息、语音消息同时成立,交互成本降到极低。
当一个系统随时可通过聊天唤醒,并且具备执行真实动作的能力,心理模型会发生转变:发送的每一句话更像任务指令,而非提问。

不过,"智能体"这部分才是关键。

Clawdbot 完全在你电脑上本地运行,它的设置、偏好、用户记忆和其他指令都以实实在在的文件夹和 Markdown 文档的形式存在你机器上。你可以把它想象成 Obsidian 的同类:虽然背后有个云服务(Obsidian 用的是 Sync;Clawdbot 用的是你选的 LLM 提供商),但其他一切都在本地、在设备上运行,你可以直接控制,可以无限调整——要么手动改,要么直接让 Clawdbot 改某个特定方面来适应你的需求。

这就引出了 Clawdbot 最重要、最强大的特质:因为这个智能体跑在你电脑上,它能访问命令行(shell)和你的文件系统。给足权限的话,Clawdbot 能执行终端命令、现场写脚本并执行、安装技能包来获得新能力、设置 MCP 服务器来给自己增加新的外部整合。把这些功能跟一个活跃的社区(大家在给 Clawdbot 贡献技能包和插件)、再加上 Steinberger 自己的一系列命令行工具结合起来,你就得到了一个能自我改进、可操控、开放的个人助手——它认识你、能上网、在本地机器上运行、几乎啥都能干。而这一切,你只需要用发短信的方式跟它交流。这是 AI 极客的梦想成真,一开始确实信息量很大,需要慢慢消化。

本地文件系统即长期记忆中枢

Clawdbot 的记忆系统采用纯文本 Markdown 日志,每天生成新的记忆文件,记录交互内容、上下文与行为痕迹。这些文件直接存放在本地目录中。

这一设计形成了强因果优势:

  • 文本文件天然支持全文搜索、版本管理、自动化处理。
  • 本地工具如 Obsidian、Raycast、Hazel 可直接接管这些记忆。
  • 智能体的“大脑内容”完全可审计、可编辑、可迁移。
  • 当记忆具备物理形态,智能体的可控性与可塑性同步提升。

Shell 与脚本赋予真实行动能力

Clawdbot 被授予访问 Shell 的权限后,能力出现质变。
终端命令意味着系统级操作能力:文件管理、网络请求、进程控制、定时任务、环境配置全部进入可调用范围。
智能体可以动态生成脚本,立即执行,再根据结果继续调整。
这一机制使“会写代码”升级为“会部署解决方案”。
当脚本生成与执行形成闭环,自动化成本迅速接近零。

技能系统与 MCP 扩展形成自我成长路径

Clawdbot 支持技能安装与 MCP 服务器扩展。
技能本质上是能力模块,提供特定函数或集成接口。
MCP 服务器则承担外部服务对接角色,将第三方 API 纳入智能体能力版图。
整个过程支持自然语言驱动:提出需求,智能体自行检索文档、生成配置、请求密钥、完成接入。
成长路径呈现出明显的递归特征:能力提升带来更强的自我改造能力。

图像生成示例揭示结构自省能力

给你感受一下它能干啥:我让 Clawdbot 给自己加上用 Google 的 Nano Banana Pro 模型生成图片的功能。它搞定之后(Clawdbot 还告诉我怎么把 Gemini 的密钥安全地存到 macOS 原生的钥匙串里),我让 Navi 给自己画个头像,要把原来的螃蟹形象和《塞尔达传说》里的 Navi 结合起来。结果出来了个"仙女螃蟹",还配上了游戏里那句经典的"Hey, Listen!"——它提前自己上网用 Google 搜到了这句话:

然后我更进一步:我让 Navi 评估一下它现在的功能状态,然后用 Nano Banana 做一张信息图来描述它的结构。因为 Clawdbot 跑在我电脑上,它的功能都在文件夹里,所以 Clawdbot 扫描了 Finder 里自己的 /clawd 目录,调用了 Nano Banana,生成了一张图。
"记忆文件"本质上就是 Clawdbot 每天自动生成的 Markdown 格式日常笔记,用纯文本记录我们的互动。这是它基于 Markdown 的记忆系统,如果我想的话,可以把它插进 Obsidian、用 Raycast 搜索、或者用 Hazel 搞点别的自动化。

通过接入 Google Nano Banana Pro 图像模型,Clawdbot 被要求为自身创建头像与结构示意图。在这一过程中,智能体扫描自身目录结构,理解功能分区,再将抽象结构转译为视觉表达。这种行为体现出一种罕见能力:系统级自省。当一个系统可以读取自身组成并对外解释结构,调试、扩展与教学成本同步下降。

语音输入输出让助理真正“常驻生活”

通过 Whisper 转录与 ElevenLabs 语音合成,Clawdbot 实现了语音输入与语音回复的完整闭环。
多语言混合输入自然成立,语音与文字通道自动匹配。
当双手被占用时,语音消息完成任务提交。
当阅读受限时,语音回复承担信息输出。
这种设计使智能体从工具跃迁为环境型存在。

这些整合功能是我这几年玩 LLM 最爽的体验。

秉承我们最近在 AppStories 聊到的"你想干啥就能干啥"的理念,如果你想让 Clawdbot 拥有它默认没有的功能,直接让它去做就行,它会帮你搞定。
举个例子:之前我给 Club MacStories 会员分享过一个快捷指令,能快速把语音消息转录成文字,用的是 Groq 上托管的 Whisper 模型。我把文章链接丢给 Clawd,告诉它我想让它支持用那个系统来转录 Telegram 的语音消息。两分钟后,它就创建了一个技能包,把我的快捷指令适配到了跑在 Mac mini 上的 Clawd。

然后我又更进一步:就像任何好助手一样,我想确保如果我发语音请求,Navi 也用语音回复;如果我发文字,Navi 也用文字回复。于是 Clawdbot 去做了些研究,找到了 ElevenLabs 新 TTS 模型的文档,问我要了 ElevenLabs 的密钥,然后创建了三个不同性格的测试语音让我选。我选了一个,微调了一下,几分钟后 Navi 就有了未来回复语音消息要用的"声音"。现在,当我想问助手点啥但正忙着没法打字的时候,我就直接在 Telegram 上给它发一段语音消息,几秒钟后就能听到回复了。

能给我这个跑在 Telegram 里的助手发意大利语或英语的语音消息——或者两种混着说!——这体验太棒了。尤其是想想 iPhone 自带的 Siri 到现在还不会多语言,更别说理解用户上下文或者在后台执行长时间任务了。

本地自动化取代云订阅服务

还没被震撼到?那看看这个:

昨晚,我在想能不能把几年前在 Zapier 上配置的一些自动化流程,换成在 Mac mini 上通过 Clawd 跑的等效操作,这样每月能省点钱。比如其中一个" zap"(Zapier 里的自动化流程),是每周五我们发完 MacStories Weekly 通讯后,自动在我的 Todoist 里创建下一期项目。它的原理是检查 RSS 订阅源,把期号加 1,然后通过 Todoist API 创建新项目。

我问 Clawd 能不能复制这个功能,果然,它给出了一个方案:我们可以在 Mac mini 上设置一个 cron 定时任务(cron 就是定时执行任务的系统),每隔几小时检查一次 RSS 订阅源,有新期刊出现时就自动创建新项目。

来回沟通了五分钟后,Clawd 在我 Mac 上把一切都搭建好了——没有云依赖,不需要订阅,就只是我要求的那个任务,由一个有网络访问权限、会用现有 shell 工具的 LLM 拼凑出来的。这让我不禁思考,只要给 Clawd 一些提示词和 shell 访问权限,我能替代多少层自动化工具和服务。

这一切既让人兴奋又有点吓人。比起用最新版的 Claude 或 ChatGPT,用 Clawdbot 并持续按我的需求和偏好塑造它的过程,是我最近感受到的"更高程度数字智能"的最接近体验。

我现在理解为什么 OpenAI 应用部门的 CEO Fidji Simo 写道,AI 实验室应该做更多工作来利用模型的能力(解决"能力悬置"问题),打造个人超级助手。当我用 ChatGPT 或 Claude 时,模型的能力受限于开发者给它们的功能,我们用户能做的调整不多。

相反,Clawdbot 是新一代可塑软件、个性化和适应性软件的终极体现:我可以选择 Clawdbot 应该具备什么能力,而且我随时能检查后台发生了什么,如果不喜欢,可以要求改动。

能让我的电脑通过跟运行在它里面的智能体说话就去做任何事——这太好玩、太上瘾、太有教育意义了:过去一周我学到的关于 SSH、cron、Web API 和 Tailscale 的知识,比我过去近二十年鼓捣电脑学到的都多。

小结:用 Clawdbot 本地 cron 任务替代 Zapier 自动化。RSS 监测、项目创建、API 调用全部在个人电脑完成。
结果直接呈现出三重优势:

  1. 成本下降,订阅费用消失。
  2. 控制增强,流程完全透明。
  3. 延迟降低,执行环境固定。

当自动化可以通过一句话生成,传统自动化平台的竞争逻辑随之改变。

Clawdbot 是新一代可塑、个性化、适应性软件的终极体现。

Clawdbot 所展示的能力指向一个趋势:功能不再由开发者提前设计,而是由使用者即时生成。

Clawdbot 也是一个绝佳的例子,展示了当你给现代智能体(配上合适的约束)访问电脑的能力时会发生什么:它们可以构建东西,通过准递归改进为特定用户变得更聪明(但不会在通用意义上更智能)。难怪所有 AI 公司都注意到了,现在每个重大功能发布都是关于虚拟文件系统沙盒或命令行访问的。

当智能体可以创建专属遥控器、定制晨报、生成专用脚本,通用型工具的吸引力自然下降。
应用商店的角色开始转向基础能力分发,而非完整解决方案售卖。“应用”概念逐步解构为“能力拼装”。

就像我在 AppStories 上说的,我相信这一切的影响很快会波及各个应用商店,我们需要认真讨论一下应用开发者的角色未来会怎样。

Clawdbot 目前是个小众的极客项目,但把它看作未来的一个潜在趋势:当主流消费者 LLM 变得足够聪明、足够直观,能按需为你适配任何功能——当你最终能让 Claude 或 ChatGPT 在你的电脑上做任何事、创建任何东西,而不用看到终端界面——那时专业开发者做的"应用"会变成什么样?

我特别担心那些独立的工具类应用:如果 Clawdbot 能给我创建一个 LG 电视的虚拟遥控器(我真做了这个)或者每天早上给我发一份个性化语音报告(另一个我设置的 cron 任务),而且完全按我想要的方式工作,那我为啥还要去 App Store 找别人做的现成方案?当任何我想要的"自动化"其实只需要给数字助手发条文字消息就能搞定的时候,Shortcuts(苹果的快捷指令应用)还有什么用?

我现在还不知道这些问题的答案,但今年我们会在 AppStories 和 MacStories 上尝试 unpack(拆解、探讨)所有这些问题。

就现在来说,我先说到这儿:Clawdbot 是个 outstanding(杰出)的项目,如果你觉得这个概念哪怕有一点点意思,我都强烈推荐你去鼓捣鼓捣。Clawdbot 让我意识到,我们作为个人助手来挖掘 LLM 的潜力,才刚刚开始。掌握了这种超能力之后,就再也回不去了。

准递归改进揭示智能体真正价值

Clawdbot 通过访问自身文件、修改自身配置、安装新能力,形成一种准递归改进模式。改进对象始终聚焦具体用户需求,而非通用智能提升。这种路径规避了安全与失控风险,同时最大化实用价值。个人智能体因此成为长期积累型资产,而非一次性工具。

Clawdbot 以工程方式展示了个人智能体应有形态:

  • 本地运行
  • 完全可控
  • 可自我扩展
  • 通过自然语言驱动真实行动

这种形态一旦体验,认知回退空间极小。
个人计算范式已发生转向。

https://www.jdon.com/90168-clawdbot-personal-ai-assistant-future-vision.html

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐