我用 AI Agent 做了一个微博赛博分身

本文探讨了利用AI工具优化社交媒体运营的实践。作者对比了两种自动化方案：传统的浏览器点击操作存在成本高、稳定性差的问题，而基于MediaUse的"weibov2"技能通过封装微博操作命令，显著提升了效率。该方案将AI的内容生成能力与工具的执行功能分离，使AI专注于选题和创作，工具负责具体操作，形成更可控的工作流。作者在Claude Code、OpenClaw和Codex三个环境

TengLe

345人浏览 · 2026-05-12 09:30:00

TengLe · 2026-05-12 09:30:00 发布

我一直觉得维护社交媒体账号挺耗人。

不是说发一条微博有多难，而是那一整套杂活很烦：看热点、想角度、组织语言、配图、发出去，再回评论和私信。时间一长，你会发现自己不是在表达，而是在维护一个“互联网值班号”。

最近我用 MediaUse 和几个 AI Agent 测试了一套工作流。现在它可以自己看微博热点、生成草稿、发布内容，也能定时处理评论和私信。说“赛博分身”有点夸张，但它确实已经能替我完成不少重复劳动。
在这里插入图片描述

我以前为什么放弃浏览器点击方案

最早我试过 browser-use 这类方案。思路很直白：让 AI 看网页，然后像人一样点按钮、输入文字、滚动页面。

问题也很直白：贵，而且不稳。

这类工具通常要把 DOM、截图或页面结构塞给模型，让模型判断“发布”按钮在哪。发一条微博，本来只是几行文字的事，最后会消耗一大段上下文。页面一弹登录提醒、广告浮层，或者按钮位置变了，Agent 就容易卡住。

你会有一种很荒谬的感觉：我明明是想让它帮我发微博，结果我得在旁边看着它找按钮。

MediaUse 的差别：让 Agent 调命令，而不是猜页面

这次工作流里我用了 MediaUse 的 weibov2 skill。它给微博操作封装了一层命令，不需要 Agent 每次都去猜页面元素。

比如发微博，不再是“找到输入框、点击、输入、点击发布”，而是直接调用发布命令。查通知、搜热搜、回评论、发私信，也都有对应的动作。

这件事听起来不复杂，但用起来差别很明显。

Agent 终于可以把注意力放在内容上：今天聊什么，语气怎么拿捏，哪些评论值得回，哪些可以跳过。至于“怎么点到那个按钮”，就交给工具处理。

我这次用的是 weibov2 skill。它把微博里的常见任务拆成几类：

发布：post feed、post repost
读取：get feed、get detail、get notif
搜索：search text、search user、search hot
回复：reply comment、reply sub、reply message
互动：engage like、engage follow、engage collect
用户操作：user profile、user feed、user followers

也就是说，Agent 不需要再盯着网页猜“哪个按钮是发布”。它只要决定发什么，然后调用：

mediause weibov2 post feed --text "今天的内容" --json

处理评论也类似：

mediause weibov2 reply comment --post-id <id> --text "回复内容" --json

这一下省掉了很多不确定性。网页长什么样、按钮在哪里、弹窗有没有挡住，至少不再是模型每次都要重新解决的问题。

在这里插入图片描述

我现在的工作流

我这次主要试了三个环境：

Claude Code 能跑，也适合做一些内容生成和命令调用。

OpenClaw 在执行上也比较稳，拿来试定时任务没什么问题。

Codex 最后是我用下来最顺的。它不只是能调用 MediaUse，还能把“选题、成文、定时发布、后续评论处理”这些事串得更自然。尤其是成文这一块，它可以根据上下文直接写出比较完整的微博内容，不需要我反复补提示词。

Codex 在这类连续任务里表现更像一个能接上下文的助理。它可以先看资料，再写微博；也可以根据之前的发布内容，调整后续回复的语气。定时跑起来以后，它还能按设定周期检查评论和私信，再决定要不要调用 MediaUse 去处理。

MediaUse 负责执行，Codex 负责判断和写作。这个搭配比较舒服。

mediause use account weibov2:main --json
mediause auth health --json

登入自己的账号，检查状态，状态正常以后，再做搜索、发布、回复这些动作。执行完还能用 trace 看结果。

比浏览器自动化省心在哪

最大的变化不是“能发微博”，而是不用每一步都赌页面状态。

以前用点击方案，失败原因经常很无聊：页面没加载完、按钮没找到、弹窗没关、输入框焦点丢了。Agent 看起来很聪明，但一到真实网页环境里就会被这些小事拖住。

MediaUse 这边更像是给 Agent 开了一组微博 API 风格的工具。Agent 负责判断内容，MediaUse 负责执行动作。两边边界清楚之后，整套系统稳定很多。

我自己的体验大概是：

维度	浏览器点击方案	MediaUse 方案
上下文消耗	高，需要看页面	低，主要传指令和结果
失败原因	页面状态、弹窗、布局变化	多数是登录、风控或参数问题
调试方式	看截图、猜步骤	看 JSON 输出和 trace
适合任务	临时网页操作	可重复的账号工作流