项目实践笔记7:基于真实交互日志的打卡/日报 Agent v1.0 Bug 清单整理
在完成打卡 / 日报 Agent v1.0 的基础功能后,通过真实交互日志 + 用例执行,对当前版本进行了一轮系统性的 Bug 梳理。将零散的异常现象合并为可复现、可归因、可修改的 Bug 清单,并明确区分了代码缺陷与业务策略问题。通过这次整理,我重点暴露了输入解析、对话状态维护、一致性/幂等性等基础问题,为后续 v1.1 的修复与规则收敛提供了明确方向。这套从“用例执行 → Bug 合并 → 清
前言:
上一篇完成用例的编写,这一篇就是执行用例,找bug了。
把用例执行过程中暴露的 Bug,先按“事实”记清楚。如果跳过,后面的分析、优化、经验沉淀都会变虚。
一、先记录 Bug 细节
在执行测试用例的过程中,有个感觉:
-
我知道系统“哪里不对”
-
但如果让我现在复述具体问题,会开始模糊
-
更别说隔几天后再回看
二、bug记录模版
每条 Bug,记录 5 个字段:
【触发用例】
当时在执行哪一条测试用例?
【输入】
用户输入的原始内容是什么?
【系统反应】
系统的真实输出或行为?
【我为什么觉得不对】
违反了哪条直觉 / 规则 / 使用预期?
【初步归因】
我当时怀疑是:解析 / 状态 / 规则 / 其他
说明两点:
-
不写“期望结果”
-
不写“建议修改”
这一步的目的不是提 Bug,而是保留现场。
三、Bug 详细记录
只记录执行用例时真实触发的行为:
Bug 1:输入解析类
-
【触发用例】记录日报
-
【输入】
今天写了 WMS 0.8 版本测试用例 -
【系统反应】系统要求必须补充日期(YYYY-MM-DD),无法继续
-
【我为什么觉得不对】在日常使用中,“今天”是高频默认值
-
【初步归因】输入解析 / 默认值策略缺失
Bug 2:对话状态类
-
【触发用例】打卡流程
-
【输入】先输入“打卡”,下一轮输入“开始工作”
-
【系统反应】系统重新询问意图,而不是继续打卡流程
-
【我为什么觉得不对】同一轮对话中,系统应保留上下文
-
【初步归因】对话状态未显式维护
Bug 3:一致性 / 幂等性类
-
【触发用例】下班打卡
-
【输入】同一天两次输入“下班打卡 18:00”
-
【系统反应】两次均返回成功确认
-
【我为什么觉得不对】是否允许重复写入未定义
-
【初步归因】幂等策略缺失
当记录了十来条类似的 Bug 事实后,出现一个明显现象:
很多 Bug,其实是同一类问题的重复表现。
比如:
-
多条输入失败 → 指向解析 / 容错问题
-
多轮对话异常 → 指向状态管理问题
-
重复操作异常 → 指向幂等 / 规则问题
所以说最好先分一下类。
四、这个记录方式的可迁移价值
经验 1:状态持久化是 LLM Agent 的生命线
-
无状态 = 无记忆 = 用户觉得“这玩意儿傻”
-
建议:哪怕本地文件存储,也要实现会话级状态管理
经验 2:输入必须“先清洗,再处理”
-
不要让 Function Calling 直接面对原始用户输入
-
建议:增加
input_preprocessor层,统一做:-
情绪过滤
-
时间词映射
-
格式标准化
-
经验 3:人机边界要“系统多猜,用户少说”
-
用户说“今天”,就是在提供上下文
-
错误做法:反问“今天是几号?”
-
正确做法:默认使用当前日,并提供纠正入口(如“记录错了?点此修改”)
五、现在只是测了Agent 的核心交互,如果有UI 页面,还要测试其他
现在还没有页面交互,只是测试Agent 逻辑。如果后续有页面进行交互的话,测试还要往这些方面考虑:
1、为什么“有页面”Bug 会明显变多(本质原因)
现在你的 Agent 是:
文本输入 → 逻辑判断 → 文本输出
一旦加页面,系统会变成:
页面状态 → 用户行为 → 前端校验 → 后端逻辑 → 状态回显
Bug 来源直接翻倍。
2、如果有页面,典型会多出来哪些 Bug
测试最常用的 5 大类:
1️⃣ 边界类 Bug(UI 特有)
现在为什么少?
你现在输入基本靠自然语言,边界由你“脑子兜底”。
有页面后会出现:
-
输入框最大长度(超长日报)
-
空格 / 全空 / 换行
-
特殊字符、表情符
-
快速连点提交
-
只填一半就提交
👉 这些是UI 强制制造的边界。
2️⃣ 兼容性 Bug(当前形态几乎不存在)
现在为什么没有?
-
你没有浏览器
-
没有设备
-
没有分辨率
有页面后一定会有:
-
PC / 手机样式错位
-
不同浏览器行为不一致
-
移动端输入法遮挡
-
小屏操作不可达
👉 这是 UI 系统的天然负债。
3️⃣ 状态同步 Bug(页面最容易翻车的地方)
现在状态:
-
全在后端 / Agent 内部
-
出错了你立刻能看到
有页面后:
-
页面显示“已打卡”,但后端没写成功
-
网络慢导致重复提交
-
刷新页面状态丢失
-
返回按钮导致流程错乱
👉 这类 Bug,现在不存在,是因为你还没引入“双状态源”。
4️⃣ 提示 / 反馈类 Bug(体验层)
有页面后:
-
错误提示不明确
-
校验失败但无提示
-
loading 不消失
-
成功/失败文案误导
👉 这些不是逻辑 Bug,但都是真实用户投诉源。
5️⃣ 时序 / 并发类 Bug(页面更容易触发)
现在:
-
一条一条输
-
几乎无并发
有页面后:
-
连续点击
-
多标签页
-
网络抖动
-
提交中刷新
👉 这会直接放大 幂等性问题。
3、现在是不是“没测到位”?不是
现在做的测试,刚好覆盖了当前系统形态最关键的部分:
-
输入解析
-
对话状态
-
业务规则
-
幂等与一致性
👉 这是UI 之下的地基。
总结:先把bug记录下来,后续再优化,然后再回归测试。
更多推荐



所有评论(0)