AI:辅助功能测试平台:[4] 视觉实现UI自动化 2.0 - 执行者
功能介绍:AI视觉驱动的UI自动化引擎【版本2.0】
AI驱动功能测试|软件测试-视觉失效UI自动化-执行者agent
测试若依系统 输入计算验证码登录
为了应对现代Web应用中复杂多变的UI元素和频繁的界面迭代,我们开发了一套创新的AI视觉驱动的UI自动化引擎。该引擎彻底摆脱了传统自动化技术对HTML结构、ID或XPath等不稳定页面元素的依赖,而是像人类测试员一样,通过“观察”和“理解”屏幕截图来决策并执行操作
核心工作流程
我们的实现遵循一个“感知-决策-行动”的智能循环,将复杂的自动化任务分解为一系列简单、可靠的步骤:
-
感知 (Perception) - “AI之眼”:
-
在自动化流程的每一步,系统首先会对当前浏览器窗口进行一次完整的屏幕截图。这张截图就是AI的全部信息来源,是它观察世界的“眼睛”。
-
-
决策 (Decision) - “AI之脑”:
-
这张截图,连同一个用自然语言描述的当前步骤目标(例如:“在用户名输入框中输入‘admin’”或“点击‘登录’按钮”),会被发送到我们后台部署的多模态大语言模型(LLM)。
-
AI利用其强大的视觉分析和逻辑推理能力,在截图中定位目标元素(如输入框、按钮),并决策出完成当前目标所必需的原子操作(如 click、type 等)。
-
最终,AI会返回一个结构化的操作指令JSON,其中包含了精确的操作类型和在屏幕上的归一化坐标。
-
-
行动 (Action) - “AI之手”:
-
测试执行端(控制中心)接收到AI返回的操作指令后,会通过Playwright等自动化工具,将这些指令转换为真实的浏览器操作。
-
例如,它会将归一化坐标转换为屏幕像素坐标,并模拟一次精准的鼠标点击或键盘输入。
-
-
循环与反馈 (Loop & Feedback):
-
每执行完一次操作,系统都会再次截图,进入下一个“感知-决策-行动”的循环,直到完成整个测试流程。
-
所有截图、AI的决策(返回的JSON)以及执行日志都会被实时地通过Socket.IO推送回前端控制台,为测试人员提供了完全透明、可追溯的执行过程监控。
-
主要优势
-
极高的健壮性: 由于不依赖随时可能变化的HTML内部结构,AI视觉驱动的测试对前端代码的重构和样式调整具有极强的抵抗力。只要一个按钮在视觉上还在原来的位置,测试就能通过。
-
“所见即所得”的测试编写: 测试人员不再需要关心复杂的元素定位器,只需用自然语言描述他们希望AI完成的任务即可,极大地降低了自动化测试的编写和维护门槛。
-
强大的适应性: 能够轻松处理自定义控件、Canvas绘制的图表甚至桌面应用截图等传统自动化技术难以覆盖的场景。
通过这套创新的AI视觉驱动方案,我们正在将UI自动化从一种“脆弱的编码工作”转变为一种更接近人类思维的、更具弹性和智能的“自动化探索过程”。
更多推荐
所有评论(0)