让 AI 自己学修线上 bug：用强化学习调教「包工头」智能体

让 AI 自己排查生产环境的 bug？听起来像个笑话。毕竟，程序员自己常被各种监控面板、日志和错误信息搞得头晕，更何况那些对业务上下文一无所知的大模型。但 2026 年初，还真有人把这个「笑话」变成了能跑的代码，而且效果还不错。事情的起因很实在。Dylan Bowman 在一家叫 HUD 的创业公司做工程师，他和同事算了一下，大概有 10% 到 20% 的开发时间耗在生产环境排错上。

御坂10101号

883人浏览 · 2026-02-15 22:16:25

御坂10101号 · 2026-02-15 22:16:25 发布

让 AI 自己排查生产环境的 bug？听起来像个笑话。毕竟，程序员自己常被各种监控面板、日志和错误信息搞得头晕，更何况那些对业务上下文一无所知的大模型。但 2026 年初，还真有人把这个「笑话」变成了能跑的代码，而且效果还不错。

事情的起因很实在。Dylan Bowman 在一家叫 HUD 的创业公司做工程师，他和同事算了一下，大概有 10% 到 20% 的开发时间耗在生产环境排错上。流程极其机械：Sentry 报错 → 去 Supabase、Railway、Kubernetes 面板里翻日志 → 找时间点吻合的错误 → 交叉比对 GitHub 和文档 → 打补丁。重复几十次后，他们冒出个念头：这玩意儿能不能交给 AI？

第一反应当然是 prompt engineering。把 API 文档和工具列表塞给 Claude 或 GPT，让它自己查去。结果不出所料：直接失败。问题不在模型智商不够，而在工具太多。104 个工具一次性甩过去，模型要么不知所措，要么反复调用错误接口，像是把扳手当成螺丝刀用。

于是他们换了思路：与其让一个大模型硬扛所有工具，不如学公司组织架构——包工头带打工仔。

分层打工：把工具塞进子公司

核心架构很简单：顶层有个「包工头」智能体，它面前只有六个按钮，每个按钮对应一个「专项工人」智能体。比如 Sentry 工人、Supabase 工人、Kubernetes 工人。工人背后才真正对接那一百多个具体工具（MCP 格式）。包工头不需要知道怎么查 Kubernetes 日志，它只需知道：遇到网络问题，按一下 Kubernetes 工人的按钮，把问题描述扔过去，等它返结果。

关键在于，每个工人自己就是一个独立的强化学习环境。Sentry 工人有自己的任务集、奖励函数和工具链，可以单独训练；Supabase 工人也一样。先让工人各自精通本职工作，再让包工头学怎么调度他们。这叫分层强化学习，在游戏 AI 里用了好些年，第一次被这么自然地搬到运维领域。

用真 bug 喂出来的模型

训练数据不搞模拟题，全部来自真实生产环境。他们从 Sentry 里扒拉出 24 个历史事故：认证 token 过期、WebSocket 断开、schema 校验失败、计费边界 case……每个任务都有明确的对错标准。例如任务 #0010，要求模型找出用户误把 Claude 的工具调用 ID toolu_01XArLykPgwrg24DR3WQJ3Mu 当成 trace UUID；任务 #0016 必须定位到某个叫 print_hello 的函数。找对了就是满分，找错了零分，没有「差不多」的中间地带。这种二值化奖励在 RL 里最干净，也最难骗。

训练在 HUD 平台上跑，用了 OpenAI 的 RFT（Reinforcement Fine-Tuning），基础模型是 o4-mini。13 小时，3000 多条轨迹，15 步内必须解决。结果？成功率从 6.3% 提升到 13%，直接翻倍。听起来不高，但已经压过 Gemini 3 Pro 和 Claude 全家桶，而且步数更少——这意味着模型更果断，不绕弯子。

为什么这事值得琢磨

这个结果给行业提了个醒：别再堆 prompt 了，正经用 RL 训练才是正道。像 AutoGPT 那种「给模型一百个工具让它自由探索」的玩法，早就证明是死胡同。工具一多，搜索空间爆炸，别说模型，人都晕。分层架构把指数级复杂度拆成线性，每个子问题先被局部优化，再全局调度，这才有了可扩展性。

类似思路其实在别的领域早有影子。LangChain 的链式调用算最简版的分工；AlphaGo 的下棋策略网络和价值网络也是各司其职。但把它们揉成一个可训练的 RL 环境，让子智能体在各自领域卷出专业度，再拼装成完整解决方案，这种打法在运维自动化里还是头一回见。

更关键的是，这套方法论不局限于查 bug。原文总结了五条原则：

挑能自动验证的领域。金融表格、客服工单、调试结果，对就是对错就是错。能用脚本检查，就别用人眼。
用真实问题训练。生产环境的怪毛病最有价值：那个叫 print_hello 的 cron 任务、那段拼错的服务名、那份过期的 token。模拟题永远模拟不出真实世界的脏。
奖励函数必须自动化。靠人工打分没法规模化。二值化奖励最干净，LLM-as-judge 是退而求其次的方案。
分层比扁平好。6 个专项工人好过 104 个散兵游勇。每个工人还能独立迭代。
别光评测，要真训练。跑轨迹、收集数据、微调、再跑，让环境成为持续优化的飞轮。

这套逻辑放在代码助手、深研（deep research）智能体、甚至客服机器人上都通用。

能上手吗？

他们已经把环境开源了，叫 cross-service-diagnostics （https://www.hud.ai/environments/a959e403-6e07-4969-afa6-5db637aefc75）。你可以把自己的 Sentry token、Supabase 凭证填进去，直接跑在自家生产栈上。平台会记录完整轨迹，包括每一步动作、观察结果和推理过程，事后能精确回放。说白了，相当于给 AI 工人装上行车记录仪，出了问题能复盘。

当然，13% 的成功率离「解放程序员」还差得远。但方向对了：不是让 AI 变得更聪明，而是把问题拆成它能理解的结构，再用真实世界的脏数据把它喂成老手。这比单纯砸算力、堆参数务实得多。

Hacker News 上有人开玩笑说，下一步是不是该让 AI 写周报、领工资了。笑话归笑话，至少现在，它确实能把工程师从机械排查里拎出来一部分。剩下的，还得靠人。

在这里插入图片描述