新的QA思维方式：测试AI与大语言模型

例如，每次点击某个节点按钮时，都应该导航到某个特定的表单，每次填写表单并点击提交按钮时，这些数据应该通过某个API调用发送到后端，返回状态代码201。它只是根据你提供的上下文预测最可能出现的下一个单词——就像一个超级先进的自动补全系统，背后有大量知识。当我们测试AI驱动的应用（LLM）时，我们面对的是概率系统，输出可能会有所不同。我们今天测试的系统是不可预测的。模型“理解”（基于以往的模式）雨通常

转行二师兄

468人浏览 · 2026-01-26 18:00:00

转行二师兄 · 2026-01-26 18:00:00 发布

多年来，质量保证工程师一直在测试确定性系统——那些在特定输入下表现可预测的应用。

但随着AI驱动应用和大语言模型（LLMs）的兴起，规则发生了变化。我们今天测试的系统是不可预测的。

它们是概率性的、数据驱动的，即使代码没有变化，行为也可能有所不同。

这就是为什么我们作为质量保证专业人士需要一种新的思维方式。

经典质量保证思维：可预测系统，明确期望

传统QA在测试传统移动或网页应用时，基于测试具有明确输入输出的可预测系统。

例如，每次点击某个节点按钮时，都应该导航到某个特定的表单，每次填写表单并点击提交按钮时，这些数据应该通过某个API调用发送到后端，返回状态代码201。

输入和输出在软件需求文档中明确定义，我们也基于此编写测试用例。测试用例格式为测试步骤 -> 期望结果，因为每次作时，我们都期望得到相同的结果。

回归测试中，我们验证最新的代码是否发生变化，这些预期结果没有任何异常。如果实际结果与预期结果不符，那就存在bug。

错误的报告方式也类似，我们有重现步骤、实际结果和预期结果。当你执行这些步骤时，每次都能重现。

在传统软件中，一切都基于逻辑。我们可以预测结果。如果某个按钮不工作，那就是坏了。如果API返回错误状态，那就是bug。质量保证主要是验证功能和可用性。

我们测试Selenium、Cypress、Appium、Postman、Rest Assured、JMeter等常用的一些典型工具。一些常见指标包括缺陷密度、通过率、覆盖率、测试时间等。

质量保证确保产品符合规范。重点关注缺陷、覆盖率和发布信心。

✔️可以到我的个人号：annasea0928

即可加入领取【转行、入门、提升、需要的各种干货资料】

内含AI测试、车载测试、AI大模型开发、银行测试、游戏测试、数据分析、AIGC...

AI 质量保证思维：测试不可预测性

当我们测试AI驱动的应用（LLM）时，我们面对的是概率系统，输出可能会有所不同。输出质量取决于模型获取数据的质量。