一、为什么我开始怀疑「AI 生成用例」这件事

最近一段时间,我在尝试用 AI 辅助生成测试用例。

而且市面上也有很多教材教AI 生成测试用例的。
一开始的直觉是:省事、省时间,看起来也挺全

但实际用了一段时间后,我发现一个问题:

同一个需求、同一个输入,每次生成的用例都不太一样。

不是差一点,是:

  • 覆盖点顺序不一样

  • 风险关注点不一样

  • 有些场景这次有、下次没了

这让我有点不踏实,那到底用哪一版本生成的用例啊。

于是我干脆做一个小的对比实验,看看这种不一致到底有多大。

二、我做了什么小实践

我没有搞复杂场景,就选了一个我自己非常熟悉的功能:登录页面

实验方式很简单:
  • 使用 同一个 AI 工具(我这次用的是元宝)

  • 使用 完全相同的 prompt

  • 每次都 新开一个窗口

  • 连续生成 3 次

输入内容只有两样:
  1. 登录页面截图

  2. 一句话提示:

    请基于该登录页面,生成测试用例,包含正常、异常和边界场景。

没有加任何“高级提示词”,就是大家平时最常用的那种。

三、三次生成结果,大概发生了什么

1️⃣ 测试用例本身

三次生成的结果有几个明显特征:

  • 核心流程都会覆盖到
    比如:正常登录、账号密码错误、为空等,这些几乎每次都有。

  • 用例结构不一致

    • 有的偏「功能 + 异常」

    • 有的单独拉出了「安全」「UI」「兼容性」

    • 有的混在一起写

  • 细节覆盖不稳定

    • 有一次有「密码可见性 / 复制粘贴」

    • 有一次有「防暴力破解」

    • 有一次完全没提

我截一下这三次的结果,截取部分:

第一次生成用例:

第二次用例生成:

第三次用例生成:

👉 结论不是“AI 不行”,而是:
它每次都会“换一个角度帮你想”

2️⃣ 风险提示对比(差异更明显)

我又加了一轮问题:

基于这个登录页,你觉得最容易被忽略的 5 类风险是什么?

同样,问了三次。下面是部分截图。

第一次生成用例截图:

第二次生成用例截图:

第三次生成用例截图:

结果更明显了:

  • 有一次偏 安全工程视角

  • 有一次偏 用户行为 / 社会工程

  • 有一次偏 产品设计 & 使用习惯

每一版说的都“有道理”,但:

  • 关注点不一致

  • 很难选哪一版才是“对的”

四、这次实验让我改变的一个认知

在公司里用 AI 生成用例时,我其实早就隐约感觉到这个问题:

每次生成的内容都差不多,但又不完全一样。

以前我会觉得:

“反正流程都覆盖了,问题不大。”

但这次对比后,我的态度变了。

五、我现在更倾向于怎么用 AI

经过这次实验,我目前更倾向于:

把 AI 当成「风险提醒工具」,反向生成用例,而不是「测试设计的最终答案」。

更具体一点说:

  • ✅ 用它来:

    • 提醒我有没有漏掉某些边界

    • 从安全、异常、用户行为等角度“换脑子想一遍”

  • ❌ 不再指望:

    • 一次生成就能直接作为测试用例集

    • 把“确定性工作”完全交给一次生成结果

至少在测试设计这种需要确定性的事情上
我暂时还不太敢只依赖 AI 的“一次回答”。

六、这篇不是结论,只是一个记录

这不是说:

  • AI 不能用

  • 生成用例没价值

而是我在真实使用后,发现:

AI 更擅长帮你“想漏了什么”,
但不擅长帮你“一次性想对”。

后面我还会继续试:

  • 加约束 prompt

  • 固定风险分类

  • 或者用反向方式让 AI 做补漏

但至少在现在这个阶段,这次实验对我挺有价值的。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐