项目实践笔记7：基于真实交互日志的打卡/日报 Agent v1.0 Bug 清单整理

在完成打卡 / 日报 Agent v1.0 的基础功能后，通过真实交互日志 + 用例执行，对当前版本进行了一轮系统性的 Bug 梳理。将零散的异常现象合并为可复现、可归因、可修改的 Bug 清单，并明确区分了代码缺陷与业务策略问题。通过这次整理，我重点暴露了输入解析、对话状态维护、一致性/幂等性等基础问题，为后续 v1.1 的修复与规则收敛提供了明确方向。这套从“用例执行 → Bug 合并 → 清

whweia

202人浏览 · 2026-01-21 23:45:58

whweia · 2026-01-21 23:45:58 发布

前言：

上一篇完成用例的编写，这一篇就是执行用例，找bug了。

把用例执行过程中暴露的 Bug，先按“事实”记清楚。如果跳过，后面的分析、优化、经验沉淀都会变虚。

一、先记录 Bug 细节

在执行测试用例的过程中，有个感觉：

我知道系统“哪里不对”
但如果让我现在复述具体问题，会开始模糊
更别说隔几天后再回看

二、bug记录模版

每条 Bug，记录 5 个字段：

【触发用例】
当时在执行哪一条测试用例？

【输入】
用户输入的原始内容是什么？

【系统反应】
系统的真实输出或行为？

【我为什么觉得不对】
违反了哪条直觉 / 规则 / 使用预期？

【初步归因】
我当时怀疑是：解析 / 状态 / 规则 / 其他

说明两点：

不写“期望结果”
不写“建议修改”

这一步的目的不是提 Bug，而是保留现场。

三、Bug 详细记录

只记录执行用例时真实触发的行为：

Bug 1：输入解析类

【触发用例】记录日报
【输入】今天写了 WMS 0.8 版本测试用例
【系统反应】系统要求必须补充日期（YYYY-MM-DD），无法继续
【我为什么觉得不对】在日常使用中，“今天”是高频默认值
【初步归因】输入解析 / 默认值策略缺失

Bug 2：对话状态类

【触发用例】打卡流程
【输入】先输入“打卡”，下一轮输入“开始工作”
【系统反应】系统重新询问意图，而不是继续打卡流程
【我为什么觉得不对】同一轮对话中，系统应保留上下文
【初步归因】对话状态未显式维护

Bug 3：一致性 / 幂等性类

【触发用例】下班打卡
【输入】同一天两次输入“下班打卡 18:00”
【系统反应】两次均返回成功确认
【我为什么觉得不对】是否允许重复写入未定义
【初步归因】幂等策略缺失

当记录了十来条类似的 Bug 事实后，出现一个明显现象：

很多 Bug，其实是同一类问题的重复表现。

比如：

多条输入失败 → 指向解析 / 容错问题
多轮对话异常 → 指向状态管理问题
重复操作异常 → 指向幂等 / 规则问题

所以说最好先分一下类。

四、这个记录方式的可迁移价值

经验 1：状态持久化是 LLM Agent 的生命线

无状态 = 无记忆 = 用户觉得“这玩意儿傻”
建议：哪怕本地文件存储，也要实现会话级状态管理

经验 2：输入必须“先清洗，再处理”

不要让 Function Calling 直接面对原始用户输入
建议：增加 input_preprocessor 层，统一做：
- 情绪过滤
- 时间词映射
- 格式标准化

经验 3：人机边界要“系统多猜，用户少说”

用户说“今天”，就是在提供上下文
错误做法：反问“今天是几号？”
正确做法：默认使用当前日，并提供纠正入口（如“记录错了？点此修改”）

五、现在只是测了Agent 的核心交互，如果有UI 页面，还要测试其他

现在还没有页面交互，只是测试Agent 逻辑。如果后续有页面进行交互的话，测试还要往这些方面考虑：

1、为什么“有页面”Bug 会明显变多（本质原因）

现在你的 Agent 是：

文本输入 → 逻辑判断 → 文本输出

一旦加页面，系统会变成：

页面状态 → 用户行为 → 前端校验 → 后端逻辑 → 状态回显

Bug 来源直接翻倍。

2、如果有页面，典型会多出来哪些 Bug

测试最常用的 5 大类：

1️⃣ 边界类 Bug（UI 特有）

现在为什么少？

你现在输入基本靠自然语言，边界由你“脑子兜底”。

有页面后会出现：

输入框最大长度（超长日报）
空格 / 全空 / 换行
特殊字符、表情符
快速连点提交
只填一半就提交

👉 这些是UI 强制制造的边界。

2️⃣ 兼容性 Bug（当前形态几乎不存在）

现在为什么没有？

你没有浏览器
没有设备
没有分辨率

有页面后一定会有：

PC / 手机样式错位
不同浏览器行为不一致
移动端输入法遮挡
小屏操作不可达

👉 这是 UI 系统的天然负债。

3️⃣ 状态同步 Bug（页面最容易翻车的地方）

现在状态：

全在后端 / Agent 内部
出错了你立刻能看到

有页面后：

页面显示“已打卡”，但后端没写成功
网络慢导致重复提交
刷新页面状态丢失
返回按钮导致流程错乱

👉 这类 Bug，现在不存在，是因为你还没引入“双状态源”。

4️⃣ 提示 / 反馈类 Bug（体验层）

有页面后：

错误提示不明确
校验失败但无提示
loading 不消失
成功/失败文案误导

👉 这些不是逻辑 Bug，但都是真实用户投诉源。

5️⃣ 时序 / 并发类 Bug（页面更容易触发）

现在：

一条一条输
几乎无并发

有页面后：

连续点击
多标签页
网络抖动
提交中刷新

👉 这会直接放大幂等性问题。

3、现在是不是“没测到位”？不是

现在做的测试，刚好覆盖了当前系统形态最关键的部分：

输入解析
对话状态
业务规则
幂等与一致性

👉 这是UI 之下的地基。

总结：先把bug记录下来，后续再优化，然后再回归测试。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

吐血推荐9个AI论文平台，专科生轻松搞定毕业论文！

2048 AI社区

一键安装 ArkTS 语法助手技能，让 AI 编程工具真正懂鸿蒙开发

2048 AI社区

2026年AI编程工具全景图：GitHub Copilot vs Cursor vs Codeium，我如何选择？

2048 AI社区

所有评论(0)

查看更多评论

whweia

@whweia

已为社区贡献11条内容