我花 4 周做了一个“不聪明但不胡说”的 AI Agent

不要看一个 Agent 能回答多少问题，而要看它能否在该沉默的时候沉默。Week 4 结束了。这不是一个终点，我没有在追风口，我是在搭一套可以长期演化的系统。

kestiny

830人浏览 · 2026-02-03 07:06:27

kestiny · 2026-02-03 07:06:27 发布

很多人在做 AI Agent 时，都在追求一件事：
更聪明。

而我在第 4 周，刻意做了一件相反的事：
让它变笨。

但正是从这一刻开始，我第一次意识到——
我可能真的在做一个“可以被使用的 Agent 系统”。

一、我在做 Agent，但不是你想的那种

过去 4 周，我一直在做一个 AI Agent。

但如果你期待的是那种：

能自动拆任务
能调用十几个工具
能像人一样推理、总结、输出

那你可能会失望。

因为我的 Agent 当前只做一件事：

分析一段 Java 后端代码，
在它能力范围内指出潜在风险，
不确定的地方，明确说“不确定”。

它：

不跑代码
不猜业务意图
不做项目级分析
甚至在信息不足时，会直接中止任务

听起来很“弱”，对吧？

但恰恰是这些限制，让我第一次觉得：

这不是一个 Demo，
而是一个开始“值得信任”的系统。

二、大多数 Agent 项目，其实死在同一个地方

在这 4 周里，我反复观察一个现象：

绝大多数 Agent 项目失败，
不是因为模型不够强，
而是因为系统不知道什么时候该停下来。

典型症状包括：

输出永远是“成功的”，但没人知道对不对
一步失败，后面仍然强行继续
不确定性被自信语气完全掩盖

看起来 Agent 很“聪明”，
但你 不敢把它接入任何真实流程。

问题不在模型，而在系统设计。

三、我真正做的，其实不是 Agent，而是“控制系统”

在 Week 1–4，我做的最核心的一件事，并不是 Prompt 调优，也不是模型选择。

而是这一点：

把 Agent 从 Prompt 驱动，变成 State 驱动。

我的 Agent 内部没有“魔法”，只有一个非常朴素的循环：

think → action → evaluate → reflect → control

每一步都要回答清楚：

当前在做什么？
这一步成功了吗？
如果失败，是 retry、replan，还是直接结束？

尤其关键的是：

Reflection 不再输出“反思文本”，
而是只输出一个控制决策信号。

这是我整个设计里的分水岭。

从这一刻开始，
Agent 不再“看起来在思考”，
而是在被系统约束地执行。

四、Week 4：我为什么选择“对外展示”，而不是继续变强

到第 4 周，我刻意停下了继续加功能，而是专门做了三件事：

一个 CLI 入口（任何人都能跑）
一段官方任务定义（它只支持什么）
一份明确的拒绝清单（它明确不做什么）

我希望任何一个第一次使用它的人，都能清楚地知道：

这东西能干嘛
不能干嘛
什么时候它会说「信息不足」

我逐渐意识到一件事：

Agent 的可信度，从来不是来自“能力有多强”，
而是来自“边界有多清晰”。

五、一个真正改变我认知的瞬间

有一次，我看到 Agent 输出了这样一句结论：

“这里存在潜在风险，但由于上下文不足，
该判断的置信度较低，可能存在误判。”

那一刻我突然意识到：

这不是退步，
而是它第一次像一个工程系统。

它没有急着给答案，
而是在告诉我：
“这里，我不确定。”

而这，恰恰是我最想要的能力。

六、写在最后：Agent 不该是“无所不知”

如果你也在做 Agent，我想分享一个非常简单、但极其重要的判断标准：

不要看一个 Agent 能回答多少问题，
而要看它能否在该沉默的时候沉默。

Week 4 结束了。

这不是一个终点，
但这是我第一次非常笃定地觉得：

我没有在追风口，
我是在搭一套可以长期演化的系统。

后记

这是一个为期 12 周的 Agent 系统实验。
我会持续记录每一周的设计选择、踩坑与认知变化。

如果你也在做 Agent，
也许我们走在同一条路上。

博主文章首发在公众号，欢迎光临我花 4 周做了一个“不聪明但不胡说”的 AI Agent

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

校园组团平台信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

2048 AI社区

企业级高校专业实习管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

2048 AI社区

OpenClaw 当前最值得尝试的玩法与高级用法（2026年2月最新）

摘要：过去24小时，X平台关于"AI创业"的讨论集中在视频生成工具迭代、人才争夺和效率提升。字节跳动Seedance 2.0大幅降低视频制作门槛，引发创业团队转向使用；顶级AI工程师极度稀缺，招聘难度大；AI工具提升个体创业效率，"一人公司"模式兴起；多模态生成工具商业化加速，窗口期短但利润可观；整体融资环境火热，AI创业处于早期红利期。当前呈现"

2048 AI社区

所有评论(0)

查看更多评论

kestiny

@chlk118

已为社区贡献3条内容