功能介绍:AI视觉驱动的UI自动化引擎【版本2.0】

AI驱动功能测试|软件测试-视觉失效UI自动化-执行者agent

测试若依系统 输入计算验证码登录

为了应对现代Web应用中复杂多变的UI元素和频繁的界面迭代,我们开发了一套创新的AI视觉驱动的UI自动化引擎。该引擎彻底摆脱了传统自动化技术对HTML结构、ID或XPath等不稳定页面元素的依赖,而是像人类测试员一样,通过“观察”和“理解”屏幕截图来决策并执行操作

核心工作流程

我们的实现遵循一个“感知-决策-行动”的智能循环,将复杂的自动化任务分解为一系列简单、可靠的步骤:

  1. 感知 (Perception) - “AI之眼”:

    • 在自动化流程的每一步,系统首先会对当前浏览器窗口进行一次完整的屏幕截图。这张截图就是AI的全部信息来源,是它观察世界的“眼睛”。

  2. 决策 (Decision) - “AI之脑”:

    • 这张截图,连同一个用自然语言描述的当前步骤目标(例如:“在用户名输入框中输入‘admin’”或“点击‘登录’按钮”),会被发送到我们后台部署的多模态大语言模型(LLM)

    • AI利用其强大的视觉分析和逻辑推理能力,在截图中定位目标元素(如输入框、按钮),并决策出完成当前目标所必需的原子操作(如 click、type 等)。

    • 最终,AI会返回一个结构化的操作指令JSON,其中包含了精确的操作类型和在屏幕上的归一化坐标

  3. 行动 (Action) - “AI之手”:

    • 测试执行端(控制中心)接收到AI返回的操作指令后,会通过Playwright等自动化工具,将这些指令转换为真实的浏览器操作。

    • 例如,它会将归一化坐标转换为屏幕像素坐标,并模拟一次精准的鼠标点击键盘输入

  4. 循环与反馈 (Loop & Feedback):

    • 每执行完一次操作,系统都会再次截图,进入下一个“感知-决策-行动”的循环,直到完成整个测试流程。

    • 所有截图、AI的决策(返回的JSON)以及执行日志都会被实时地通过Socket.IO推送回前端控制台,为测试人员提供了完全透明、可追溯的执行过程监控。

主要优势
  • 极高的健壮性: 由于不依赖随时可能变化的HTML内部结构,AI视觉驱动的测试对前端代码的重构和样式调整具有极强的抵抗力。只要一个按钮在视觉上还在原来的位置,测试就能通过。

  • “所见即所得”的测试编写: 测试人员不再需要关心复杂的元素定位器,只需用自然语言描述他们希望AI完成的任务即可,极大地降低了自动化测试的编写和维护门槛。

  • 强大的适应性: 能够轻松处理自定义控件、Canvas绘制的图表甚至桌面应用截图等传统自动化技术难以覆盖的场景。

通过这套创新的AI视觉驱动方案,我们正在将UI自动化从一种“脆弱的编码工作”转变为一种更接近人类思维的、更具弹性和智能的“自动化探索过程”。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐