前言:

上一篇完成用例的编写,这一篇就是执行用例,找bug了。

把用例执行过程中暴露的 Bug,先按“事实”记清楚。如果跳过,后面的分析、优化、经验沉淀都会变虚。

一、先记录 Bug 细节

在执行测试用例的过程中,有个感觉:

  • 我知道系统“哪里不对”

  • 但如果让我现在复述具体问题,会开始模糊

  • 更别说隔几天后再回看

二、bug记录模版

每条 Bug,记录 5 个字段:

【触发用例】
当时在执行哪一条测试用例?

【输入】
用户输入的原始内容是什么?

【系统反应】
系统的真实输出或行为?

【我为什么觉得不对】
违反了哪条直觉 / 规则 / 使用预期?

【初步归因】
我当时怀疑是:解析 / 状态 / 规则 / 其他

说明两点:

  • 不写“期望结果”

  • 不写“建议修改”

这一步的目的不是提 Bug,而是保留现场

三、Bug 详细记录

只记录执行用例时真实触发的行为:

Bug 1:输入解析类

  • 【触发用例】记录日报

  • 【输入】今天写了 WMS 0.8 版本测试用例

  • 【系统反应】系统要求必须补充日期(YYYY-MM-DD),无法继续

  • 【我为什么觉得不对】在日常使用中,“今天”是高频默认值

  • 【初步归因】输入解析 / 默认值策略缺失

Bug 2:对话状态类

  • 【触发用例】打卡流程

  • 【输入】先输入“打卡”,下一轮输入“开始工作”

  • 【系统反应】系统重新询问意图,而不是继续打卡流程

  • 【我为什么觉得不对】同一轮对话中,系统应保留上下文

  • 【初步归因】对话状态未显式维护

Bug 3:一致性 / 幂等性类

  • 【触发用例】下班打卡

  • 【输入】同一天两次输入“下班打卡 18:00”

  • 【系统反应】两次均返回成功确认

  • 【我为什么觉得不对】是否允许重复写入未定义

  • 【初步归因】幂等策略缺失

当记录了十来条类似的 Bug 事实后,出现一个明显现象:

很多 Bug,其实是同一类问题的重复表现。

比如:

  • 多条输入失败 → 指向解析 / 容错问题

  • 多轮对话异常 → 指向状态管理问题

  • 重复操作异常 → 指向幂等 / 规则问题

所以说最好先分一下类。

四、这个记录方式的可迁移价值

经验 1:状态持久化是 LLM Agent 的生命线

  • 无状态 = 无记忆 = 用户觉得“这玩意儿傻”

  • 建议:哪怕本地文件存储,也要实现会话级状态管理

经验 2:输入必须“先清洗,再处理”

  • 不要让 Function Calling 直接面对原始用户输入

  • 建议:增加 input_preprocessor 层,统一做:

    • 情绪过滤

    • 时间词映射

    • 格式标准化

经验 3:人机边界要“系统多猜,用户少说”

  • 用户说“今天”,就是在提供上下文

  • 错误做法:反问“今天是几号?”

  • 正确做法:默认使用当前日,并提供纠正入口(如“记录错了?点此修改”)

五、现在只是测了Agent 的核心交互,如果有UI 页面,还要测试其他

现在还没有页面交互,只是测试Agent 逻辑。如果后续有页面进行交互的话,测试还要往这些方面考虑:

1、为什么“有页面”Bug 会明显变多(本质原因)

现在你的 Agent 是:

文本输入 → 逻辑判断 → 文本输出

一旦加页面,系统会变成:

页面状态 → 用户行为 → 前端校验 → 后端逻辑 → 状态回显

Bug 来源直接翻倍。

2、如果有页面,典型会多出来哪些 Bug

测试最常用的 5 大类:

1️⃣ 边界类 Bug(UI 特有)

现在为什么少?

你现在输入基本靠自然语言,边界由你“脑子兜底”。

有页面后会出现:

  • 输入框最大长度(超长日报)

  • 空格 / 全空 / 换行

  • 特殊字符、表情符

  • 快速连点提交

  • 只填一半就提交

👉 这些是UI 强制制造的边界。

2️⃣ 兼容性 Bug(当前形态几乎不存在)

现在为什么没有?

  • 你没有浏览器

  • 没有设备

  • 没有分辨率

有页面后一定会有:

  • PC / 手机样式错位

  • 不同浏览器行为不一致

  • 移动端输入法遮挡

  • 小屏操作不可达

👉 这是 UI 系统的天然负债。

3️⃣ 状态同步 Bug(页面最容易翻车的地方)

现在状态:

  • 全在后端 / Agent 内部

  • 出错了你立刻能看到

有页面后:

  • 页面显示“已打卡”,但后端没写成功

  • 网络慢导致重复提交

  • 刷新页面状态丢失

  • 返回按钮导致流程错乱

👉 这类 Bug,现在不存在,是因为你还没引入“双状态源”。

4️⃣ 提示 / 反馈类 Bug(体验层)

有页面后:

  • 错误提示不明确

  • 校验失败但无提示

  • loading 不消失

  • 成功/失败文案误导

👉 这些不是逻辑 Bug,但都是真实用户投诉源。

5️⃣ 时序 / 并发类 Bug(页面更容易触发)

现在:

  • 一条一条输

  • 几乎无并发

有页面后:

  • 连续点击

  • 多标签页

  • 网络抖动

  • 提交中刷新

👉 这会直接放大 幂等性问题。

3、现在是不是“没测到位”?不是

现在做的测试,刚好覆盖了当前系统形态最关键的部分:

  • 输入解析

  • 对话状态

  • 业务规则

  • 幂等与一致性

👉 这是UI 之下的地基。

总结:先把bug记录下来,后续再优化,然后再回归测试。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐