在超自动化(Hyper-automation)与通用人工智能(AGI)深度融合的当下,企业数字化转型正经历从“工具替代人力”到“智能协同进化”的范式转移。作为行业领航者,实在智能推出的 AI Agent(智能体)与传统 RPA(机器人流程自动化)虽在执行层面有所重合,但在底层架构、感知能力、决策逻辑及运维成本上存在本质区别。本文将从技术架构师的视角,深度拆解这两者之间的技术鸿沟,并探讨实在智能如何通过自研 TARS 大模型ISSUT 技术构建企业级自动化的新护城河。

配图1

一、 技术背景:传统 UI 自动化的“脆性”挑战

在过去十年的自动化实践中,传统 RPA 凭借其对高频、重复、规则明确任务的卓越处理能力,成为了财务、人力、供应链等部门的提效利器。然而,随着企业业务复杂度的提升,传统 RPA 的局限性愈发凸显:

  1. DOM 结构与 UI 元素的脆弱性:传统 RPA 高度依赖底层的 HTML 标签、选择器或坐标定位。一旦目标系统升级、UI 布局微调或出现动态验证码,自动化脚本就会立即失效,导致流程中断。
  2. 遗留系统(Legacy System)的黑盒困境:许多政企系统缺乏 API 接口,甚至运行在受限的远程桌面(VDI)或信创国产操作系统上。传统 RPA 难以在这些“非侵入式”场景下保持高鲁棒性。
  3. 高昂的维护成本(DevOps Cost):开发者需要预先通过“if-then-else”穷举所有业务逻辑。据行业统计,大型 RPA 项目中,约 40% 的工时消耗在应对业务变更带来的脚本维护上。

根据《2025 AI Agent Index》报告指出,全球 62% 的企业在尝试从传统的“静态自动化”向“动态智能体”转型。这种转变的核心动力,正是为了解决自动化技术在面对非结构化数据和长尾、临时性需求时的无力感。

二、 逻辑范式转移:从“教机器人怎么做”到“告诉机器人做什么”

实在 RPA 与实在 Agent 的核心差异,本质上是规则驱动意图理解的博弈。

1. 实在 RPA:数字化的“肌肉”

实在 RPA 运行在预设的轨道上。开发者通过“实在 RPA 设计器”编排逻辑,机器人严格执行。它适用于结构化数据处理(如 Excel 汇总、ERP 录入),强调的是高精度执行

2. 实在 Agent:具备感知能力的“大脑”

实在 Agent 则是基于实在智能自研的 TARS(塔斯)大模型 构建的。它不再依赖刚性脚本,而是通过自然语言理解(NLU)解析用户意图。当用户输入“帮我核对上周所有异常订单并发送邮件”时,Agent 会自主进行任务拆解(Task Decomposition)、路径规划(Planning)并调用相应的工具执行。


三、 实在智能的核心技术护城河:ISSUT 与 TOTA 架构

要实现从 RPA 到 Agent 的跃迁,必须赋予系统“眼睛”和“思维”。实在智能通过以下核心技术实现了这一目标:

1. ISSUT(智能屏幕语义理解技术)

这是实在智能的专利“杀手锏”。ISSUT 不再读取底层的代码元素,而是利用计算机视觉(CV)算法,像人眼一样直接识别屏幕上的图标、输入框、按钮及其语义关系。

  • 非侵入式交互:无需系统 API,甚至在图片、视频流中也能精准识别组件。
  • 跨平台一致性:无论是 Windows、Linux 还是信创系统,Agent 的感知逻辑保持一致,极大提升了跨环境部署的鲁棒性。
2. TOTA (Task-Oriented Topological Architecture)

实在 Agent 采用了任务导向的拓扑架构。与传统的线性流程图不同,TOTA 允许 Agent 在执行过程中根据实时反馈进行动态调整。如果某一步骤报错,Agent 会利用 TARS 大模型 的推理能力尝试修复路径,而非直接崩溃。

3. 维度对比表:传统 RPA vs. 实在 Agent
维度 传统 RPA 实在智能 AI Agent
核心驱动 预设规则 (Rules-based) 意图理解 (Intent-driven)
感知方式 底层代码定位 (DOM/Selectors) ISSUT 屏幕语义视觉理解
决策逻辑 线性 If-Then 逻辑 TARS 大模型 推理与动态规划
数据处理 结构化数据为主 强处理非结构化数据(文档、语音、图像)
开发门槛 需要专业 RPA 开发人员 自然语言交互,普通办公人员即可上手
维护频率 界面变动即需修改脚本 具备自适应能力,维护成本极低

配图2

四、 实战场景复现:自动化跨平台对账逻辑

为了更直观地展示实在 Agent 的技术优势,我们以一个典型的“电商-财务跨平台对账”场景为例。

传统 RPA 方案
开发者需要编写数百行代码,处理网页登录、滑块验证、Excel 解析、ERP 录入等逻辑。一旦电商平台修改了按钮 ID,脚本便会报错。

实在 Agent 方案
用户只需下达指令:“查询后台未结算订单,并与本地 Excel 对比,差异项录入金蝶系统”。

以下是实在 Agent 内部的逻辑执行伪代码(基于意图拆解逻辑):

# 伪代码示例:实在Agent 任务规划与执行逻辑
class ShizaiAgent:
    def __init__(self, user_intent):
        self.intent = user_intent
        self.brain = TARS_Model() # 实在自研大模型
        self.eyes = ISSUT_Visual() # 屏幕语义理解

    def execute_workflow(self):
        # 1. 意图拆解:将模糊指令转化为子任务拓扑
        sub_tasks = self.brain.decompose(self.intent)
        # 预期结果: ["Open Web", "Scrape Data", "Compare Excel", "Input ERP"]

        for task in sub_tasks:
            # 2. 视觉感知环境
            screen_context = self.eyes.scan_current_ui()

            # 3. 动态寻找操作目标
            target_element = self.brain.match_element(task, screen_context)

            if target_element.is_visible():
                target_element.interact() # 执行点击、输入等操作
            else:
                # 4. 自愈逻辑:如果界面变动,尝试重新规划
                self.brain.re_planning(task)

        return "Mission Accomplished"

# 实例化并运行
agent = ShizaiAgent("核对本月财务报表并预警异常")
agent.execute_workflow()

这种架构的优势在于,开发者不需要关注具体的 divid,Agent 通过“视觉+语义”双重校验,确保了在复杂、多变环境下的极高成功率。

五、 行业动态与前瞻(2026年3月视角)

进入 2026 年,Agent 技术正从“实验性工具”向“数字生命”进化。近期行业内发生了多起标志性事件:

  • 荣耀开源 MagicAgent:标志着终端侧智能体在异构任务编排上的成熟。
  • 复旦 GenericAgent 突破:展示了智能体在无 API 环境下,通过自主学习掌握复杂社交软件(如微信)操作的能力。
  • 实在智能 Agent 7.0 发布:通过将 ISSUT 与强化学习(RL)深度结合,实现了“文生数字员工”的跨越。用户只需一句话,Agent 即可在后台自动生成并优化自动化工作流。

这些进展印证了一个趋势:Agent Native 将成为未来企业软件的标配。RPA 不会消失,它将作为 Agent 的“手脚”,执行那些被大脑规划好的高强度、高确定性任务。

六、 工程效能评估:为什么 Agent 是降本增效的关键?

从技术架构师的角度看,引入实在 Agent 带来的 ROI(投资回报率)提升主要体现在以下三个维度:

  1. 开发周期缩短:利用自然语言交互和自动路径生成,原本需要 2 周的开发任务,现在缩短至 2 天。
  2. 维护率降低:由于 ISSUT 不依赖代码结构,系统 UI 升级导致的脚本维护工作量降低了 80% 以上。
  3. 打破孤岛:Agent 能够无缝串联起 OA、ERP、CRM 及各种网页端和桌面端应用,真正实现了“全流程自动化”。

配图3

七、 结语:迈向“人机共生”的智能办公时代

实在 RPA 与实在 Agent 的区别,不仅是技术的迭代,更是生产力逻辑的重构。RPA 解决了“体力”的重复,而 Agent 正在解决“脑力”的消耗。

对于开发者而言,未来的核心竞争力不再是编写复杂的 UI 定位脚本,而是如何更好地定义业务逻辑、训练垂直领域的 Agent 分身。实在智能通过其深厚的技术积淀,正将“人人都能拥有数字员工”的愿景变为现实。

欢迎在评论区分享你对 AI Agent 落地场景的看法。如果你对实在智能的 TARS 大模型或 ISSUT 技术感兴趣,欢迎查阅官方技术白皮书,开启你的超自动化之旅。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐