Moltbot(原 Clawdbot)自主运行24小时实测：47美元和一堆意外

测试了AI助手Moltbot全天候管理日程的效果。实验显示，未经优化的24小时运行成本高达47.23美元，其中后台监控消耗了90%预算。优化检查频率和权限后，成本降至8.73美元。AI助手能有效处理简报、邮件提醒和总结，但也出现误回复、误报警等问题。建议从小权限开始，设置预算上限，关键操作需人工审批。最终作者保留了最可靠的早间简报和晚间总结功能，认为AI助手在特定场景下能节省时间，但需谨慎配置以避

Wild API

947人浏览 · 2026-01-30 10:40:31

Wild API · 2026-01-30 10:40:31 发布

上周在 X 上看到有人说：“我让 Clawdbot 帮我管了一天日程，太爽了。”

评论区有人问：“花了多少钱？”

原 po 没回。

我决定自己测一下。

实验设置

给 Moltbot(原 Clawdbot) 开了这些权限：

Gmail（读写）
Google Calendar（读写）
Notion（读写）
Telegram（发消息）
浏览器（爬取网页）
文件系统（仅工作目录）

设定的任务：

早上 7 点读取当天日程，发简报到 Telegram
每小时检查 Gmail，重要邮件立即通知
下午 6 点做当日总结，写入 Notion
收到特定关键词的邮件时，自动回复"收到，稍后处理"
在后台持续监控，遇到异常情况主动告警

用的模型是 Claude 3.5 Sonnet（API 直接付费，不是订阅）。

跑了整整 24 小时，从周二早上 7 点到周三早上 7 点。

成本明细

先说结果：47.23 美元。

具体构成：

任务	请求次数	输入 tokens	输出 tokens	费用
早间简报	1	35,000	2,100	$0.14
邮件检查	24	890,000	42,000	$3.30
晚间总结	1	128,000	8,500	$0.51
自动回复	7	52,000	3,200	$0.20
后台监控	312	12,480,000	156,000	$42.08
工具调用	89	320,000	28,000	$1.00
总计	434	13,905,000	239,800	$47.23

问题出在"后台监控"。

后台监控吃掉了 90% 的预算

我给它的指令是：

在后台持续监控各个渠道，遇到异常情况主动告警。

它理解的是：每隔 5 分钟检查一次所有数据源。

每次检查的流程：

读取 Gmail 最近 50 封邮件
读取 Calendar 今日所有事件
读取 Notion 最近更新的页面
读取 Telegram 最近消息
分析是否有"异常"

每次检查需要把所有上下文塞进 prompt，大约 40,000 tokens。

24 小时 × 12 次/小时 = 288 次检查。

加上失败重试，实际跑了 312 次。

312 × 40,000 = 12,480,000 输入 tokens。

$3/百万 × 12.48 = $37.44（仅输入）。

加上输出和工具调用，后台监控花了 $42.08。

它实际做了什么有用的事

早间简报

7:03 AM 收到 Telegram 消息：

📅 今日简报 - 1月21日

☀️ 天气：多云，12°C-18°C

📋 日程：
- 10:00 产品评审会议 (会议室 A)
- 14:00 1:1 with Alice
- 16:30 面试候选人 (远程)

📧 重要邮件：
- AWS 账单提醒（$847）
- HR: 年假提醒（还剩 5 天）

💡 建议：
- 面试前 30 分钟我会提醒你
- AWS 账单比上月高 23%，需要关注吗？

这个挺有用，格式清晰，信息准确。

邮件自动回复

设定了对特定发件人自动回复。

测试时，一位同事发了工作邮件，系统 3 分钟内回复：

Hi [同事名字],

收到，我会尽快处理。

Best,
[我的名字]

---
此邮件由 AI 助手自动发送

同事后来问我：“你现在都用 AI 回邮件了？”

语气判断不出好坏。

实时通知

14 点有个重要客户发了邮件，标题里带"urgent"。

Telegram 立即推送：

🚨 紧急邮件

发件人: 客户名 <xxx@client.com>
主题: [URGENT] 合同确认问题
时间: 14:23

摘要：客户对合同第 3.2 条有疑问，需要今天回复。

建议操作：
1. 查看完整邮件：[链接]
2. 回复模板：[生成回复]

这个通知让我及时处理了，没耽误事。

晚间总结

18:05 收到 Notion 页面更新通知：

# 1月21日工作总结

## 完成
- ✅ 产品评审会议（笔记已整理）
- ✅ 1:1 with Alice（反馈已记录）
- ✅ 面试候选人（评价：推荐进入下一轮）

## 待办
- ⏳ 回复客户合同问题（已起草，待确认）
- ⏳ AWS 成本优化方案

## 邮件统计
- 收到：47 封
- 已读：47 封
- 已回复：12 封（含 7 封自动回复）
- 标记跟进：3 封

## 时间分布
- 会议：4 小时
- 邮件：1.5 小时
- 面试：1 小时
- 其他：2.5 小时

这个总结写进了 Notion，内容基本准确。

出了哪些问题

问题 1：回复了不该回复的邮件

自动回复规则是"特定发件人"。

但有一封是群发的部门通知，发件人恰好在白名单里。

系统回复了"收到，稍后处理"。

同事问：你收到什么了？

我：…部门通知。

尴尬。

问题 2：误报警

凌晨 3 点，Telegram 响了：

⚠️ 异常检测

Gmail 中发现可疑活动：
- 大量未读邮件突然标记为已读
- 时间：03:12

可能是账号被入侵，建议检查。

我吓得从床上跳起来，登录 Gmail 一看——

是 Gmail 自己的同步问题，不是入侵。

系统把正常的同步行为当成"异常"了。

问题 3：卡住

下午有段时间，系统没有任何响应。

查日志：

[14:45:32] Fetching calendar events...
[14:45:35] Context size: 128,453 tokens
[14:45:35] ERROR: Context exceeds maximum (128,000)
[14:45:35] Attempting summarization...
[14:45:40] Summarization failed: Context exceeds maximum
[14:45:40] Retry 1/3...
[14:45:45] Retry 2/3...
[14:45:50] Retry 3/3...
[14:45:55] Task failed: context_overflow

上下文太长，超过了模型限制。

而且总结上下文本身也需要 tokens，陷入死循环。

问题 4：幻觉

晚间总结里写：

## 今日亮点
- 完成了与 Bob 的项目交接（下午 4 点）

问题是：我今天根本没和 Bob 交接任何东西。

检查日志，发现它读了一封邮件，邮件里提到"Bob 的项目下周交接"。

它把"下周"理解成了"今天"。

优化后再跑一次

根据第一次的教训，改了配置：

{
  "monitoring": {
    "interval": 1800,  // 30 分钟检查一次（原来是 5 分钟）
    "channels": ["gmail"],  // 只监控邮件（原来是全部）
    "maxContextTokens": 50000  // 限制上下文大小
  },
  "autoReply": {
    "requireKeyword": true,  // 必须包含特定关键词才回复
    "excludePattern": "noreply|newsletter|notification"
  },
  "alerts": {
    "minConfidence": 0.8  // 置信度低于 80% 不告警
  }
}

又跑了 24 小时。

结果：$8.73。

任务	费用（优化前）	费用（优化后）
早间简报	$0.14	$0.14
邮件检查	$3.30	$1.65
晚间总结	$0.51	$0.51
自动回复	$0.20	$0.08
后台监控	$42.08	$5.35
工具调用	$1.00	$1.00
总计	$47.23	$8.73

下降了 81%。

误报也少了很多，只有一次（而且是真的有一封钓鱼邮件）。

值得吗

按优化后的配置，每月成本约 $260。

它能做的事：

每天早上发简报（节省 10 分钟）
实时邮件通知（节省随机刷邮件的时间）
晚间总结（节省 15 分钟）
特定邮件自动回复（节省若干次打断）

加起来，每天大概节省 30-40 分钟。

每月节省 15-20 小时。

$260 换 15-20 小时？

如果你的时薪超过 $15，数学上是划算的。

但这不是纯数学问题。

你得考虑：

误回复的尴尬
误告警打断睡眠
幻觉造成的信任损失
维护配置的时间成本

我的结论：特定场景有用，但需要细心调教。

直接开全自动模式，大概率会出问题。

几条实用建议

1. 先观察，后自动

{
  "mode": "observe",  // 只观察，不执行
  "logActions": true
}

跑一周，看它"打算"做什么。确认逻辑没问题，再开自动。

2. 从小权限开始

{
  "permissions": {
    "gmail": "read",  // 先只读
    "calendar": "read",
    "notion": "read"
  }
}

别一上来就给写权限。

3. 设置预算上限

{
  "budget": {
    "daily": 5.00,
    "monthly": 100.00,
    "onExceed": "pause_and_notify"
  }
}

别像我第一次那样，睡一觉起来花了 47 美元。

4. 关键操作要审批

{
  "requireApproval": [
    "send_email",
    "create_event",
    "post_to_slack"
  ]
}

发邮件、发消息这种外向操作，让它先问你。

5. 定期检查日志

moltbot logs --today --filter="action:*"

看它到底在干什么。有时候它的"理解"和你的"意图"差很远。

测试结束后，我把大部分自动化关了，只保留了早间简报和晚间总结。

这两个场景清晰、输出固定、不涉及外发，出问题的概率低。

邮件自动回复？算了，还是自己回吧。

费用明细

Day 1 (全自动): $47.23
Day 2 (优化后): $8.73
总计: $55.96

模型: Claude 3.5 Sonnet
定价: 
  输入 $3/百万 tokens
  输出 $15/百万 tokens

数据基于个人使用场景，不同配置/用法差异会很大。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

FlashLabs开源Chroma 1.0：实时、高保真语音克隆与对话的端到端模型

2048 AI社区

实时渲染 + AI算法：直播美颜SDK中智能美妆的技术架构拆解

2048 AI社区

新一代开源 OCR 神器：DeepSeek-OCR-2 深度解析，视觉因果流 + VLLM 推理双 buff 加持

2048 AI社区

所有评论(0)

查看更多评论

Wild API

@2601_94892163

已为社区贡献9条内容