AI：辅助功能测试平台:[4] 视觉实现UI自动化 2.0 - 执行者

前世是只狼

192人浏览 · 2025-09-23 11:42:53

前世是只狼 · 2025-09-23 11:42:53 发布

功能介绍：AI视觉驱动的UI自动化引擎【版本2.0】

AI驱动功能测试|软件测试-视觉失效UI自动化-执行者agent

测试若依系统输入计算验证码登录

为了应对现代Web应用中复杂多变的UI元素和频繁的界面迭代，我们开发了一套创新的AI视觉驱动的UI自动化引擎。该引擎彻底摆脱了传统自动化技术对HTML结构、ID或XPath等不稳定页面元素的依赖，而是像人类测试员一样，通过“观察”和“理解”屏幕截图来决策并执行操作

核心工作流程

我们的实现遵循一个“感知-决策-行动”的智能循环，将复杂的自动化任务分解为一系列简单、可靠的步骤：

感知 (Perception) - “AI之眼”:
- 在自动化流程的每一步，系统首先会对当前浏览器窗口进行一次完整的屏幕截图。这张截图就是AI的全部信息来源，是它观察世界的“眼睛”。
决策 (Decision) - “AI之脑”:
- 这张截图，连同一个用自然语言描述的当前步骤目标（例如：“在用户名输入框中输入‘admin’”或“点击‘登录’按钮”），会被发送到我们后台部署的多模态大语言模型（LLM）。
- AI利用其强大的视觉分析和逻辑推理能力，在截图中定位目标元素（如输入框、按钮），并决策出完成当前目标所必需的原子操作（如 click、type 等）。
- 最终，AI会返回一个结构化的操作指令JSON，其中包含了精确的操作类型和在屏幕上的归一化坐标。
行动 (Action) - “AI之手”:
- 测试执行端（控制中心）接收到AI返回的操作指令后，会通过Playwright等自动化工具，将这些指令转换为真实的浏览器操作。
- 例如，它会将归一化坐标转换为屏幕像素坐标，并模拟一次精准的鼠标点击或键盘输入。
循环与反馈 (Loop & Feedback):
- 每执行完一次操作，系统都会再次截图，进入下一个“感知-决策-行动”的循环，直到完成整个测试流程。
- 所有截图、AI的决策（返回的JSON）以及执行日志都会被实时地通过Socket.IO推送回前端控制台，为测试人员提供了完全透明、可追溯的执行过程监控。

主要优势

极高的健壮性: 由于不依赖随时可能变化的HTML内部结构，AI视觉驱动的测试对前端代码的重构和样式调整具有极强的抵抗力。只要一个按钮在视觉上还在原来的位置，测试就能通过。
“所见即所得”的测试编写: 测试人员不再需要关心复杂的元素定位器，只需用自然语言描述他们希望AI完成的任务即可，极大地降低了自动化测试的编写和维护门槛。
强大的适应性: 能够轻松处理自定义控件、Canvas绘制的图表甚至桌面应用截图等传统自动化技术难以覆盖的场景。

通过这套创新的AI视觉驱动方案，我们正在将UI自动化从一种“脆弱的编码工作”转变为一种更接近人类思维的、更具弹性和智能的“自动化探索过程”。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI 绘画的未来趋势与发展前景

2048 AI社区

CVPRW 2025 | Qualcomm AI提出基于不确定性的光流与立体深度估计改进方法！

2048 AI社区

剖析：量子计算如何优化提示工程架构流程

当我们用ChatGPT写邮件、用Claude分析论文、用Gemini生成代码时，**提示工程（Prompt Engineering）**早已成为连接人类意图与AI能力的“翻译器”。长文档问答时，要么截断上下文丢失关键信息，要么拆分文档破坏逻辑；调试prompt参数（温度、top-k、指令模板）时，试错成本高到“调一天prompt，跑一次模型”；多轮对话中，AI经常“健忘”——前面提到的细节后面全丢