上周在 X 上看到有人说:“我让 Clawdbot 帮我管了一天日程,太爽了。”

评论区有人问:“花了多少钱?”

原 po 没回。

我决定自己测一下。

实验设置

给 Moltbot(原 Clawdbot) 开了这些权限:

  • Gmail(读写)
  • Google Calendar(读写)
  • Notion(读写)
  • Telegram(发消息)
  • 浏览器(爬取网页)
  • 文件系统(仅工作目录)

设定的任务:

  1. 早上 7 点读取当天日程,发简报到 Telegram
  2. 每小时检查 Gmail,重要邮件立即通知
  3. 下午 6 点做当日总结,写入 Notion
  4. 收到特定关键词的邮件时,自动回复"收到,稍后处理"
  5. 在后台持续监控,遇到异常情况主动告警

用的模型是 Claude 3.5 Sonnet(API 直接付费,不是订阅)。

跑了整整 24 小时,从周二早上 7 点到周三早上 7 点。

成本明细

先说结果:47.23 美元

具体构成:

任务 请求次数 输入 tokens 输出 tokens 费用
早间简报 1 35,000 2,100 $0.14
邮件检查 24 890,000 42,000 $3.30
晚间总结 1 128,000 8,500 $0.51
自动回复 7 52,000 3,200 $0.20
后台监控 312 12,480,000 156,000 $42.08
工具调用 89 320,000 28,000 $1.00
总计 434 13,905,000 239,800 $47.23

问题出在"后台监控"。

后台监控吃掉了 90% 的预算

我给它的指令是:

在后台持续监控各个渠道,遇到异常情况主动告警。

它理解的是:每隔 5 分钟检查一次所有数据源。

每次检查的流程:

  1. 读取 Gmail 最近 50 封邮件
  2. 读取 Calendar 今日所有事件
  3. 读取 Notion 最近更新的页面
  4. 读取 Telegram 最近消息
  5. 分析是否有"异常"

每次检查需要把所有上下文塞进 prompt,大约 40,000 tokens。

24 小时 × 12 次/小时 = 288 次检查。

加上失败重试,实际跑了 312 次。

312 × 40,000 = 12,480,000 输入 tokens。

$3/百万 × 12.48 = $37.44(仅输入)。

加上输出和工具调用,后台监控花了 $42.08。

它实际做了什么有用的事

早间简报

7:03 AM 收到 Telegram 消息:

📅 今日简报 - 1月21日

☀️ 天气:多云,12°C-18°C

📋 日程:
- 10:00 产品评审会议 (会议室 A)
- 14:00 1:1 with Alice
- 16:30 面试候选人 (远程)

📧 重要邮件:
- AWS 账单提醒($847)
- HR: 年假提醒(还剩 5 天)

💡 建议:
- 面试前 30 分钟我会提醒你
- AWS 账单比上月高 23%,需要关注吗?

这个挺有用,格式清晰,信息准确。

邮件自动回复

设定了对特定发件人自动回复。

测试时,一位同事发了工作邮件,系统 3 分钟内回复:

Hi [同事名字],

收到,我会尽快处理。

Best,
[我的名字]

---
此邮件由 AI 助手自动发送

同事后来问我:“你现在都用 AI 回邮件了?”

语气判断不出好坏。

实时通知

14 点有个重要客户发了邮件,标题里带"urgent"。

Telegram 立即推送:

🚨 紧急邮件

发件人: 客户名 <xxx@client.com>
主题: [URGENT] 合同确认问题
时间: 14:23

摘要:客户对合同第 3.2 条有疑问,需要今天回复。

建议操作:
1. 查看完整邮件:[链接]
2. 回复模板:[生成回复]

这个通知让我及时处理了,没耽误事。

晚间总结

18:05 收到 Notion 页面更新通知:

# 1月21日工作总结

## 完成
- ✅ 产品评审会议(笔记已整理)
- ✅ 1:1 with Alice(反馈已记录)
- ✅ 面试候选人(评价:推荐进入下一轮)

## 待办
- ⏳ 回复客户合同问题(已起草,待确认)
- ⏳ AWS 成本优化方案

## 邮件统计
- 收到:47 封
- 已读:47 封
- 已回复:12 封(含 7 封自动回复)
- 标记跟进:3 封

## 时间分布
- 会议:4 小时
- 邮件:1.5 小时
- 面试:1 小时
- 其他:2.5 小时

这个总结写进了 Notion,内容基本准确。

出了哪些问题

问题 1:回复了不该回复的邮件

自动回复规则是"特定发件人"。

但有一封是群发的部门通知,发件人恰好在白名单里。

系统回复了"收到,稍后处理"。

同事问:你收到什么了?

我:…部门通知。

尴尬。

问题 2:误报警

凌晨 3 点,Telegram 响了:

⚠️ 异常检测

Gmail 中发现可疑活动:
- 大量未读邮件突然标记为已读
- 时间:03:12

可能是账号被入侵,建议检查。

我吓得从床上跳起来,登录 Gmail 一看——

是 Gmail 自己的同步问题,不是入侵。

系统把正常的同步行为当成"异常"了。

问题 3:卡住

下午有段时间,系统没有任何响应。

查日志:

[14:45:32] Fetching calendar events...
[14:45:35] Context size: 128,453 tokens
[14:45:35] ERROR: Context exceeds maximum (128,000)
[14:45:35] Attempting summarization...
[14:45:40] Summarization failed: Context exceeds maximum
[14:45:40] Retry 1/3...
[14:45:45] Retry 2/3...
[14:45:50] Retry 3/3...
[14:45:55] Task failed: context_overflow

上下文太长,超过了模型限制。

而且总结上下文本身也需要 tokens,陷入死循环。

问题 4:幻觉

晚间总结里写:

## 今日亮点
- 完成了与 Bob 的项目交接(下午 4 点)

问题是:我今天根本没和 Bob 交接任何东西。

检查日志,发现它读了一封邮件,邮件里提到"Bob 的项目下周交接"。

它把"下周"理解成了"今天"。

优化后再跑一次

根据第一次的教训,改了配置:

{
  "monitoring": {
    "interval": 1800,  // 30 分钟检查一次(原来是 5 分钟)
    "channels": ["gmail"],  // 只监控邮件(原来是全部)
    "maxContextTokens": 50000  // 限制上下文大小
  },
  "autoReply": {
    "requireKeyword": true,  // 必须包含特定关键词才回复
    "excludePattern": "noreply|newsletter|notification"
  },
  "alerts": {
    "minConfidence": 0.8  // 置信度低于 80% 不告警
  }
}

又跑了 24 小时。

结果:$8.73

任务 费用(优化前) 费用(优化后)
早间简报 $0.14 $0.14
邮件检查 $3.30 $1.65
晚间总结 $0.51 $0.51
自动回复 $0.20 $0.08
后台监控 $42.08 $5.35
工具调用 $1.00 $1.00
总计 $47.23 $8.73

下降了 81%。

误报也少了很多,只有一次(而且是真的有一封钓鱼邮件)。

值得吗

按优化后的配置,每月成本约 $260。

它能做的事:

  • 每天早上发简报(节省 10 分钟)
  • 实时邮件通知(节省随机刷邮件的时间)
  • 晚间总结(节省 15 分钟)
  • 特定邮件自动回复(节省若干次打断)

加起来,每天大概节省 30-40 分钟。

每月节省 15-20 小时。

$260 换 15-20 小时?

如果你的时薪超过 $15,数学上是划算的。

但这不是纯数学问题。

你得考虑:

  • 误回复的尴尬
  • 误告警打断睡眠
  • 幻觉造成的信任损失
  • 维护配置的时间成本

我的结论:特定场景有用,但需要细心调教

直接开全自动模式,大概率会出问题。

几条实用建议

1. 先观察,后自动

{
  "mode": "observe",  // 只观察,不执行
  "logActions": true
}

跑一周,看它"打算"做什么。确认逻辑没问题,再开自动。

2. 从小权限开始

{
  "permissions": {
    "gmail": "read",  // 先只读
    "calendar": "read",
    "notion": "read"
  }
}

别一上来就给写权限。

3. 设置预算上限

{
  "budget": {
    "daily": 5.00,
    "monthly": 100.00,
    "onExceed": "pause_and_notify"
  }
}

别像我第一次那样,睡一觉起来花了 47 美元。

4. 关键操作要审批

{
  "requireApproval": [
    "send_email",
    "create_event",
    "post_to_slack"
  ]
}

发邮件、发消息这种外向操作,让它先问你。

5. 定期检查日志

moltbot logs --today --filter="action:*" 

看它到底在干什么。有时候它的"理解"和你的"意图"差很远。


测试结束后,我把大部分自动化关了,只保留了早间简报和晚间总结。

这两个场景清晰、输出固定、不涉及外发,出问题的概率低。

邮件自动回复?算了,还是自己回吧。


费用明细

Day 1 (全自动): $47.23
Day 2 (优化后): $8.73
总计: $55.96

模型: Claude 3.5 Sonnet
定价: 
  输入 $3/百万 tokens
  输出 $15/百万 tokens

数据基于个人使用场景,不同配置/用法差异会很大。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐