Moltbot(原 Clawdbot)自主运行24小时实测:47美元和一堆意外
测试了AI助手Moltbot全天候管理日程的效果。实验显示,未经优化的24小时运行成本高达47.23美元,其中后台监控消耗了90%预算。优化检查频率和权限后,成本降至8.73美元。AI助手能有效处理简报、邮件提醒和总结,但也出现误回复、误报警等问题。建议从小权限开始,设置预算上限,关键操作需人工审批。最终作者保留了最可靠的早间简报和晚间总结功能,认为AI助手在特定场景下能节省时间,但需谨慎配置以避
上周在 X 上看到有人说:“我让 Clawdbot 帮我管了一天日程,太爽了。”
评论区有人问:“花了多少钱?”
原 po 没回。
我决定自己测一下。
实验设置
给 Moltbot(原 Clawdbot) 开了这些权限:
- Gmail(读写)
- Google Calendar(读写)
- Notion(读写)
- Telegram(发消息)
- 浏览器(爬取网页)
- 文件系统(仅工作目录)
设定的任务:
- 早上 7 点读取当天日程,发简报到 Telegram
- 每小时检查 Gmail,重要邮件立即通知
- 下午 6 点做当日总结,写入 Notion
- 收到特定关键词的邮件时,自动回复"收到,稍后处理"
- 在后台持续监控,遇到异常情况主动告警
用的模型是 Claude 3.5 Sonnet(API 直接付费,不是订阅)。
跑了整整 24 小时,从周二早上 7 点到周三早上 7 点。
成本明细
先说结果:47.23 美元。
具体构成:
| 任务 | 请求次数 | 输入 tokens | 输出 tokens | 费用 |
|---|---|---|---|---|
| 早间简报 | 1 | 35,000 | 2,100 | $0.14 |
| 邮件检查 | 24 | 890,000 | 42,000 | $3.30 |
| 晚间总结 | 1 | 128,000 | 8,500 | $0.51 |
| 自动回复 | 7 | 52,000 | 3,200 | $0.20 |
| 后台监控 | 312 | 12,480,000 | 156,000 | $42.08 |
| 工具调用 | 89 | 320,000 | 28,000 | $1.00 |
| 总计 | 434 | 13,905,000 | 239,800 | $47.23 |
问题出在"后台监控"。
后台监控吃掉了 90% 的预算
我给它的指令是:
在后台持续监控各个渠道,遇到异常情况主动告警。
它理解的是:每隔 5 分钟检查一次所有数据源。
每次检查的流程:
- 读取 Gmail 最近 50 封邮件
- 读取 Calendar 今日所有事件
- 读取 Notion 最近更新的页面
- 读取 Telegram 最近消息
- 分析是否有"异常"
每次检查需要把所有上下文塞进 prompt,大约 40,000 tokens。
24 小时 × 12 次/小时 = 288 次检查。
加上失败重试,实际跑了 312 次。
312 × 40,000 = 12,480,000 输入 tokens。
$3/百万 × 12.48 = $37.44(仅输入)。
加上输出和工具调用,后台监控花了 $42.08。
它实际做了什么有用的事
早间简报
7:03 AM 收到 Telegram 消息:
📅 今日简报 - 1月21日
☀️ 天气:多云,12°C-18°C
📋 日程:
- 10:00 产品评审会议 (会议室 A)
- 14:00 1:1 with Alice
- 16:30 面试候选人 (远程)
📧 重要邮件:
- AWS 账单提醒($847)
- HR: 年假提醒(还剩 5 天)
💡 建议:
- 面试前 30 分钟我会提醒你
- AWS 账单比上月高 23%,需要关注吗?
这个挺有用,格式清晰,信息准确。
邮件自动回复
设定了对特定发件人自动回复。
测试时,一位同事发了工作邮件,系统 3 分钟内回复:
Hi [同事名字],
收到,我会尽快处理。
Best,
[我的名字]
---
此邮件由 AI 助手自动发送
同事后来问我:“你现在都用 AI 回邮件了?”
语气判断不出好坏。
实时通知
14 点有个重要客户发了邮件,标题里带"urgent"。
Telegram 立即推送:
🚨 紧急邮件
发件人: 客户名 <xxx@client.com>
主题: [URGENT] 合同确认问题
时间: 14:23
摘要:客户对合同第 3.2 条有疑问,需要今天回复。
建议操作:
1. 查看完整邮件:[链接]
2. 回复模板:[生成回复]
这个通知让我及时处理了,没耽误事。
晚间总结
18:05 收到 Notion 页面更新通知:
# 1月21日工作总结
## 完成
- ✅ 产品评审会议(笔记已整理)
- ✅ 1:1 with Alice(反馈已记录)
- ✅ 面试候选人(评价:推荐进入下一轮)
## 待办
- ⏳ 回复客户合同问题(已起草,待确认)
- ⏳ AWS 成本优化方案
## 邮件统计
- 收到:47 封
- 已读:47 封
- 已回复:12 封(含 7 封自动回复)
- 标记跟进:3 封
## 时间分布
- 会议:4 小时
- 邮件:1.5 小时
- 面试:1 小时
- 其他:2.5 小时
这个总结写进了 Notion,内容基本准确。
出了哪些问题
问题 1:回复了不该回复的邮件
自动回复规则是"特定发件人"。
但有一封是群发的部门通知,发件人恰好在白名单里。
系统回复了"收到,稍后处理"。
同事问:你收到什么了?
我:…部门通知。
尴尬。
问题 2:误报警
凌晨 3 点,Telegram 响了:
⚠️ 异常检测
Gmail 中发现可疑活动:
- 大量未读邮件突然标记为已读
- 时间:03:12
可能是账号被入侵,建议检查。
我吓得从床上跳起来,登录 Gmail 一看——
是 Gmail 自己的同步问题,不是入侵。
系统把正常的同步行为当成"异常"了。
问题 3:卡住
下午有段时间,系统没有任何响应。
查日志:
[14:45:32] Fetching calendar events...
[14:45:35] Context size: 128,453 tokens
[14:45:35] ERROR: Context exceeds maximum (128,000)
[14:45:35] Attempting summarization...
[14:45:40] Summarization failed: Context exceeds maximum
[14:45:40] Retry 1/3...
[14:45:45] Retry 2/3...
[14:45:50] Retry 3/3...
[14:45:55] Task failed: context_overflow
上下文太长,超过了模型限制。
而且总结上下文本身也需要 tokens,陷入死循环。
问题 4:幻觉
晚间总结里写:
## 今日亮点
- 完成了与 Bob 的项目交接(下午 4 点)
问题是:我今天根本没和 Bob 交接任何东西。
检查日志,发现它读了一封邮件,邮件里提到"Bob 的项目下周交接"。
它把"下周"理解成了"今天"。
优化后再跑一次
根据第一次的教训,改了配置:
{
"monitoring": {
"interval": 1800, // 30 分钟检查一次(原来是 5 分钟)
"channels": ["gmail"], // 只监控邮件(原来是全部)
"maxContextTokens": 50000 // 限制上下文大小
},
"autoReply": {
"requireKeyword": true, // 必须包含特定关键词才回复
"excludePattern": "noreply|newsletter|notification"
},
"alerts": {
"minConfidence": 0.8 // 置信度低于 80% 不告警
}
}
又跑了 24 小时。
结果:$8.73。
| 任务 | 费用(优化前) | 费用(优化后) |
|---|---|---|
| 早间简报 | $0.14 | $0.14 |
| 邮件检查 | $3.30 | $1.65 |
| 晚间总结 | $0.51 | $0.51 |
| 自动回复 | $0.20 | $0.08 |
| 后台监控 | $42.08 | $5.35 |
| 工具调用 | $1.00 | $1.00 |
| 总计 | $47.23 | $8.73 |
下降了 81%。
误报也少了很多,只有一次(而且是真的有一封钓鱼邮件)。
值得吗
按优化后的配置,每月成本约 $260。
它能做的事:
- 每天早上发简报(节省 10 分钟)
- 实时邮件通知(节省随机刷邮件的时间)
- 晚间总结(节省 15 分钟)
- 特定邮件自动回复(节省若干次打断)
加起来,每天大概节省 30-40 分钟。
每月节省 15-20 小时。
$260 换 15-20 小时?
如果你的时薪超过 $15,数学上是划算的。
但这不是纯数学问题。
你得考虑:
- 误回复的尴尬
- 误告警打断睡眠
- 幻觉造成的信任损失
- 维护配置的时间成本
我的结论:特定场景有用,但需要细心调教。
直接开全自动模式,大概率会出问题。
几条实用建议
1. 先观察,后自动
{
"mode": "observe", // 只观察,不执行
"logActions": true
}
跑一周,看它"打算"做什么。确认逻辑没问题,再开自动。
2. 从小权限开始
{
"permissions": {
"gmail": "read", // 先只读
"calendar": "read",
"notion": "read"
}
}
别一上来就给写权限。
3. 设置预算上限
{
"budget": {
"daily": 5.00,
"monthly": 100.00,
"onExceed": "pause_and_notify"
}
}
别像我第一次那样,睡一觉起来花了 47 美元。
4. 关键操作要审批
{
"requireApproval": [
"send_email",
"create_event",
"post_to_slack"
]
}
发邮件、发消息这种外向操作,让它先问你。
5. 定期检查日志
moltbot logs --today --filter="action:*"
看它到底在干什么。有时候它的"理解"和你的"意图"差很远。
测试结束后,我把大部分自动化关了,只保留了早间简报和晚间总结。
这两个场景清晰、输出固定、不涉及外发,出问题的概率低。
邮件自动回复?算了,还是自己回吧。
费用明细
Day 1 (全自动): $47.23
Day 2 (优化后): $8.73
总计: $55.96
模型: Claude 3.5 Sonnet
定价:
输入 $3/百万 tokens
输出 $15/百万 tokens
数据基于个人使用场景,不同配置/用法差异会很大。
更多推荐



所有评论(0)