让两个 Agent 互相挑错：一个写、一个审，把瞎编率压下去

敲代码日常

183人浏览 · 2026-06-08 13:09:04

敲代码日常 · 2026-06-08 13:09:04 发布

单个 Agent 有个老毛病：它对自己的错误没有感知，瞎编了也一脸自信。我做一个要求比较严的问答场景时，被它一本正经的错误答案坑过几次。

后来试了个法子：让两个 Agent 分工，一个负责答、一个专门挑错，准确率明显上来了。记一下。

思路：写的和审的分开

人写文章都要有人 review，Agent 也一样。我拆成两个角色：

回答 Agent：正常生成答案。
审查 Agent：拿到答案，专门找毛病——有没有跟资料矛盾、有没有没依据的编造、逻辑有没有漏洞。发现问题就打回重答或标注存疑。

两个用不同的设定（甚至不同模型），审查的那个"天职就是挑刺",比让一个 Agent 自己检查自己有效得多。

落地

我用讯飞星辰搭的工作流：回答节点 → 审查节点 → 有问题则回炉/标注，没问题才输出。零代码把这俩串起来。

取舍

贵且慢：等于一个问题跑两遍多，成本和延迟都上去。只在"准确性要求高"的场景值得用，闲聊就没必要。
审查也会漏/会误判：它不是绝对正确的，只是多一道过滤，把明显错误拦下来。
别无限套娃：再加第三个审查的审查，收益递减还更慢。两层够用。

对那些"宁可慢、不能错"的场景，写审分离这招挺管用。双角色的设定我放评论区了。你们怎么压 Agent 的幻觉？

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

告别报表搬运工：数据分析师如何靠权限与日志构建智能分析Agent

cover

【LangGraph实战】《LangGraph实战》_63.[第3章状态图结构] 状态图设计模式总结：从简单到复杂的演进路径

cover

【LangGraph实战】《LangGraph实战》_62.[第3章状态图结构] X-Ray子图可视化：透视复杂智能体的内部结构

所有评论(0)

查看更多评论

敲代码日常

已为社区贡献1条内容