我用 AI Agent 做了一个微博赛博分身
本文探讨了利用AI工具优化社交媒体运营的实践。作者对比了两种自动化方案:传统的浏览器点击操作存在成本高、稳定性差的问题,而基于MediaUse的"weibov2"技能通过封装微博操作命令,显著提升了效率。该方案将AI的内容生成能力与工具的执行功能分离,使AI专注于选题和创作,工具负责具体操作,形成更可控的工作流。作者在Claude Code、OpenClaw和Codex三个环境
我一直觉得维护社交媒体账号挺耗人。
不是说发一条微博有多难,而是那一整套杂活很烦:看热点、想角度、组织语言、配图、发出去,再回评论和私信。时间一长,你会发现自己不是在表达,而是在维护一个“互联网值班号”。
最近我用 MediaUse 和几个 AI Agent 测试了一套工作流。现在它可以自己看微博热点、生成草稿、发布内容,也能定时处理评论和私信。说“赛博分身”有点夸张,但它确实已经能替我完成不少重复劳动。
我以前为什么放弃浏览器点击方案
最早我试过 browser-use 这类方案。思路很直白:让 AI 看网页,然后像人一样点按钮、输入文字、滚动页面。
问题也很直白:贵,而且不稳。
这类工具通常要把 DOM、截图或页面结构塞给模型,让模型判断“发布”按钮在哪。发一条微博,本来只是几行文字的事,最后会消耗一大段上下文。页面一弹登录提醒、广告浮层,或者按钮位置变了,Agent 就容易卡住。
你会有一种很荒谬的感觉:我明明是想让它帮我发微博,结果我得在旁边看着它找按钮。
MediaUse 的差别:让 Agent 调命令,而不是猜页面
这次工作流里我用了 MediaUse 的 weibov2 skill。它给微博操作封装了一层命令,不需要 Agent 每次都去猜页面元素。
比如发微博,不再是“找到输入框、点击、输入、点击发布”,而是直接调用发布命令。查通知、搜热搜、回评论、发私信,也都有对应的动作。
这件事听起来不复杂,但用起来差别很明显。
Agent 终于可以把注意力放在内容上:今天聊什么,语气怎么拿捏,哪些评论值得回,哪些可以跳过。至于“怎么点到那个按钮”,就交给工具处理。
我这次用的是 weibov2 skill。它把微博里的常见任务拆成几类:
- 发布:
post feed、post repost - 读取:
get feed、get detail、get notif - 搜索:
search text、search user、search hot - 回复:
reply comment、reply sub、reply message - 互动:
engage like、engage follow、engage collect - 用户操作:
user profile、user feed、user followers
也就是说,Agent 不需要再盯着网页猜“哪个按钮是发布”。它只要决定发什么,然后调用:
mediause weibov2 post feed --text "今天的内容" --json
处理评论也类似:
mediause weibov2 reply comment --post-id <id> --text "回复内容" --json
这一下省掉了很多不确定性。网页长什么样、按钮在哪里、弹窗有没有挡住,至少不再是模型每次都要重新解决的问题。

我现在的工作流
我这次主要试了三个环境:
Claude Code 能跑,也适合做一些内容生成和命令调用。
OpenClaw 在执行上也比较稳,拿来试定时任务没什么问题。
Codex 最后是我用下来最顺的。它不只是能调用 MediaUse,还能把“选题、成文、定时发布、后续评论处理”这些事串得更自然。尤其是成文这一块,它可以根据上下文直接写出比较完整的微博内容,不需要我反复补提示词。
Codex 在这类连续任务里表现更像一个能接上下文的助理。它可以先看资料,再写微博;也可以根据之前的发布内容,调整后续回复的语气。定时跑起来以后,它还能按设定周期检查评论和私信,再决定要不要调用 MediaUse 去处理。
MediaUse 负责执行,Codex 负责判断和写作。这个搭配比较舒服。
mediause use account weibov2:main --json
mediause auth health --json
登入自己的账号,检查状态,状态正常以后,再做搜索、发布、回复这些动作。执行完还能用 trace 看结果。
比浏览器自动化省心在哪
最大的变化不是“能发微博”,而是不用每一步都赌页面状态。
以前用点击方案,失败原因经常很无聊:页面没加载完、按钮没找到、弹窗没关、输入框焦点丢了。Agent 看起来很聪明,但一到真实网页环境里就会被这些小事拖住。
MediaUse 这边更像是给 Agent 开了一组微博 API 风格的工具。Agent 负责判断内容,MediaUse 负责执行动作。两边边界清楚之后,整套系统稳定很多。
我自己的体验大概是:
| 维度 | 浏览器点击方案 | MediaUse 方案 |
|---|---|---|
| 上下文消耗 | 高,需要看页面 | 低,主要传指令和结果 |
| 失败原因 | 页面状态、弹窗、布局变化 | 多数是登录、风控或参数问题 |
| 调试方式 | 看截图、猜步骤 | 看 JSON 输出和 trace |
| 适合任务 | 临时网页操作 | 可重复的账号工作流 |
这里我不想把话说得太满。微博这种平台一定有风控,自动化也不能乱跑。weibov2 skill 里本身也写了节奏限制:发布不要密集,回复和互动要有间隔,遇到风控提示就停。我的做法也是偏保守的,宁愿少发一点,也不要把账号跑成机器味。
真正有用的是“可控”

这套东西让我最满意的地方,不是它能装得多像真人,而是它可控。
我可以规定它每天最多发几条,只回复哪些类型的评论,哪些话题不要碰,遇到争议内容直接跳过。Agent 生成的内容也不是直接裸奔发布,中间可以加审核,也可以只让它先写草稿。
这样一来,它更像一个执行力很强的助理,而不是一个失控的自动发帖脚本。
如果你也想做一个社交媒体分身,我建议先别从“让 AI 操作浏览器”开始。微博这种高频、重复、动作明确的场景,更适合用语义化命令来做。
让模型负责思考,让工具负责执行。
这句话听起来像废话,但真跑起来以后,差别很大。
Skills 来源
更多推荐



所有评论(0)