从硬编码到意图驱动:深度解析传统RPA向AI Agent架构迁移的“五层渐进式”实战路

摘要

随着大模型(LLM)技术的演进,自动化领域正经历从“预设逻辑”向“自主智能体(AI Agent)”的范式转移。本文旨在为架构师与开发者提供一份硬核迁移指南,重点探讨如何处理企业存量的海量历史RPA资产。通过引入实在智能的ISSUT(屏幕语义理解)TARS大模型,我们提出了一种“技能化封装”与“意图驱动编排”的重构方案,旨在解决传统自动化脚本在复杂动态环境下的“易碎性”痛点,实现从“自动化工具”向“数字员工”的代际跨越。

一、 技术背景与挑战:传统RPA的“骨质疏松”困局

在2026年3月的技术节点回望,传统RPA(机器人流程自动化)的局限性已成为企业数字化转型的核心瓶颈。传统的RPA本质上是基于“硬连接”的自动化,其逻辑完全依赖于程序员预设的If-Else规则和脆弱的UI拾取技术(如DOM树定位、坐标识别)。

行业共识:英伟达CEO黄仁勋在近期技术峰会中指出:“Agentic AI(代理型AI)已达到拐点,AI正式从被动响应的助手进化为主动规划的执行者。”这意味着,依赖固定脚本的自动化模式正在被能够理解意图、自主拆解任务的智能体架构所取代。

对于开发者而言,传统RPA面临三大“真问题”:

  1. 高维护成本(Maintenance Hell):一旦目标系统的UI发生微小变动(如前端框架升级、动态ID变化),依赖DOM结构的脚本会大面积崩溃。
  2. 非结构化数据处理乏力:传统RPA难以处理模糊指令、复杂的财务报表图像或非标准的法律合规文件。
  3. 逻辑硬编码导致的扩展性差:跨系统的业务流一旦涉及决策分支,脚本的复杂度会呈指数级增长,导致系统难以重构和迁移。

二、 解决方案架构:基于“实在Agent”的重构范式

针对上述痛点,我们引入了以实在Agent为核心的下一代自动化架构。该架构不再追求一次性推倒历史资产,而是通过“感知-决策-执行”的三位一体闭环,对存量RPA流程进行智能化升级。

1. 核心技术:ISSUT 屏幕语义理解

实在智能自研的 ISSUT (Intelligent Screen Semantic Understanding Technology) 是解决“UI易碎性”的关键。不同于Selenium或传统拾取工具,ISSUT 基于计算机视觉算法,能够像人类一样“看懂”屏幕。它识别的是“按钮”、“输入框”或“表格”的语义特征,而非底层的代码结构。这使得Agent在面对UI变动时,具备极强的鲁棒性(Robustness)。

2. 大脑中枢:TARS 大模型与 TOTA 架构
  • TARS 大模型:作为Agent的决策引擎,负责自然语言理解(NLU)与任务拆解。它能将用户的模糊意图(如“帮我核对上个月所有异常账单”)转化为可执行的原子步骤。
  • TOTA (Task-Oriented Topological Architecture):任务导向的拓扑架构。它将复杂的业务流抽象为拓扑图,允许Agent在执行过程中根据环境反馈动态调整路径,而非死板地执行线性脚本。
3. 架构对比分析
维度 传统 RPA (Legacy RPA) 实在智能 AI Agent
定位技术 依赖 DOM、ID、坐标(易碎) ISSUT 视觉语义识别(鲁棒)
逻辑驱动 硬编码 If-Else 逻辑 TARS 大模型意图驱动
异常处理 报错停止,需人工介入 自主推理,尝试自愈路径
资产复用 脚本级复用,耦合度高 原子技能(Skills)化解耦
交互方式 预设触发器 自然语言交互(LUI)

三、 实战场景复现:从脚本调用到意图执行

假设我们需要重构一个复杂的“电商竞品数据采集与对账”流程。在传统模式下,这需要编写数百行 Python/Selenium 代码来处理登录、翻页、反爬及数据清洗。

在 AI Agent 架构下,我们将历史的 RPA 脚本封装为“原子技能”,由 Agent 进行逻辑调度。

逻辑展示:Agent 执行逻辑伪代码
# 实在Agent 核心执行逻辑示例
class FinanceAgent:
    def __init__(self):
        self.brain = TARS_Model(version="v3.5-pro")
        self.vision = ISSUT_Engine() # 开启屏幕语义理解
        self.skills_library = ["Legacy_Login_RPA", "Data_Export_Tool", "Excel_Audit_Skill"]

    def execute_task(self, user_prompt):
        # 1. 意图解析:将自然语言转化为任务拓扑图
        plan = self.brain.plan_task(user_prompt)

        for step in plan.steps:
            # 2. 环境感知:使用ISSUT识别当前页面状态
            current_ui_context = self.vision.get_screen_semantics()

            # 3. 动态决策:选择最佳工具或技能
            if step.type == "UI_Operation":
                # ISSUT 驱动的非侵入式操作,无需关心DOM ID
                target_element = self.vision.find_element(step.target_name)
                target_element.click()

            elif step.type == "Legacy_Asset":
                # 调用历史存量 RPA 资产作为“原子技能”
                result = self.call_skill("Legacy_Login_RPA", context=current_ui_context)

            # 4. 结果验证与自愈
            if not self.check_success(step):
                self.brain.replan(step, error_info="UI Layout Changed")

# 实例化并运行
agent = FinanceAgent()
agent.execute_task("抓取某平台近一周竞品价格并生成异常波动报告")

通过上述重构,原本长达千行的复杂脚本被拆解为由 TARS 驱动的动态工作流。开发者不再需要关心“如何点击按钮”,而只需定义“任务目标”。

四、 五层渐进式迁移路径:历史资产的兼容之道

迁移不应是“推倒重来”,而应是“平滑演进”。我们建议企业采用以下五层架构路径进行资产重构:

  1. 第一层:工具化封装(Skill-based Wrapping)
    将现有的 RPA 流程(.rpax 或 .py 脚本)API 化,转化为 Agent 可以调用的“工具”。此时,Agent 仅作为逻辑路由。
  2. 第二层:感知层增强(Visual Sensing Enhancement)
    引入 ISSUT 技术,逐步替换脆弱的 DOM 定位逻辑。即使业务逻辑不变,也能大幅提升自动化流程在 UI 升级时的生存率。
  3. 第三层:知识库集成(RAG-Enabled Memory)
    将业务手册、SOP 文档转化为向量数据。利用 RAG(检索增强生成)技术,赋予 Agent 处理特定领域(如财务合规、人力资源)的背景知识,减少对硬编码规则的依赖。
  4. 第四层:多智能体协作(Multi-Agent Orchestration)
    将复杂业务拆解。例如:由“采集 Agent”负责前端数据获取,由“审计 Agent”负责逻辑校验。通过实在智能的协作协议,实现复杂任务的并行处理。
  5. 第五层:生产级自主基建(Autonomous Infrastructure)
    建立完善的监控、审计与安全边界。Agent 在预设的“禁止空间”外自主运行,实现真正的“数字员工”上岗。

五、 效果评估与工程效能总结

经过多家头部企业的实践验证,采用实在智能 AI Agent 架构进行迁移后,工程效能呈现出显著提升:

  • 开发周期缩短 65%:由于引入了自然语言编排和 ISSUT 视觉识别,开发者无需耗费大量时间进行底层代码调试。
  • 脚本维护率降低 80%:ISSUT 的语义识别能力使得自动化流程对 UI 变化的容忍度极高,大幅减少了因系统升级导致的“断流”。
  • 非结构化数据处理能力提升 3 倍:TARS 大模型原生支持对图片、复杂文档的理解,打破了 RPA 只能处理 Excel 的天花板。

结语

从传统 RPA 向 AI Agent 的迁移,本质上是从“过程控制”向“目标导向”的转变。在这个过程中,历史业务流资产并非负累,而是 Agent 进化的养料。通过实在智能提供的 ISSUTTARS 技术底座,企业能够以极低的重构成本,将僵化的脚本转化为具备感知力与决策力的智能体。

未来,自动化将不再是少数程序员的特权。随着 AI Agent 技术的民主化,“人人都是开发者”的愿景正通过意图驱动型计算变为现实。


欢迎在评论区分享你在 RPA 迁移过程中遇到的技术挑战,或关注“实在智能”官方技术专栏,获取更多 AI Agent 架构白皮书及开发者试用版。
关键词:传统RPA向AI Agent架构迁移路径:历史业务流资产的兼容与重构方案

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐