从“脚本驱动”到“意图驱动”：制造企业数字化转型的 AI Agent 架构重构

ISSUT技术的核型在于其融合了计算机视觉与深度学习。它通过卷积神经网络（CNN）对屏幕截图进行实时分析，识别出按钮、输入框、表格等组件，并赋予其语义标签。这意味着，无论一个 ERP 系统是用 Delphi、Java Swing 还是最新的 React 编写的，Agent 看到的都是“搜索按钮”或“订单编号输入框”。这种智能融合拾取技术极大地提升了脚本的通用性和鲁棒性。制造企业的数字化转型已经进入

实在智能RPA

451人浏览 · 2026-03-02 19:18:29

实在智能RPA · 2026-03-02 19:18:29 发布

在 2025 年的工业语境下，制造业数字化转型已不再是“选答题”，而是关乎生存的“必答题”。根据《制造业数字化转型发展报告（2025年）》，我国规上工业企业数字化改造比例已逼近 90%。然而，在光鲜的数字化普及率背后，技术架构师们正面临着前所未有的挑战：遗留系统（Legacy Systems）的“烟囱式”孤岛、高昂的 API 开发成本，以及传统 RPA 脚本在面对动态 UI 时的脆弱性。

本文将从架构师视角出发，深度解析如何利用实在智能的 TARS 大模型 与 ISSUT（屏幕语义理解技术），构建新一代 AI Agent 架构，实现制造企业从“自动化”向“智能化”的跨越式演进。

配图1

一、数字化转型的“深水区”：传统自动化的技术瓶颈

在过去十年的数字化浪潮中，制造企业堆叠了大量的 ERP、MES、PLM 及 WMS 系统。尽管这些系统解决了业务线上化的问题，但随之而来的“技术债”也日益沉重：

“当前的痛点在于：80% 的工业软件缺乏标准化的 API 接口，且 UI 界面更新频繁。传统的基于 DOM 树或控件 ID 的 RPA 脚本，在系统升级后极易崩溃，导致运维成本（Maintenance Cost）甚至超过了开发收益。” —— 行业技术共识

核心挑战主要集中在以下三个维度：

非侵入式交互的局限性：传统 RPA 依赖底层的 HTML/CSS 选择器或特定的驱动协议。一旦软件界面重构，定位符失效，整个自动化链路即刻断裂。
长路径决策缺失：传统的“If-Then”逻辑难以处理复杂的生产调度异常。例如，当物料缺货时，系统需要自动触发供应商寻源、比价及订单生成，这涉及多步骤的逻辑推理。
开发门槛与交付周期：依赖 Python 或 C# 编写复杂的自动化脚本，使得业务部门与 IT 部门之间存在巨大的沟通鸿沟，DevOps 循环效率低下。

二、实在智能 AI Agent：基于 ISSUT 的全新架构范式

为了解决上述问题，实在智能引入了 ISSUT（Intelligent Screen Semantic Understanding Technology，屏幕语义理解技术）。这一技术彻底改变了人机交互的底层逻辑：它不再尝试从代码层面“解析”界面，而是像人类一样通过视觉“看懂”界面。

1. TOTA 架构：面向任务的拓扑结构

实在智能 Agent 采用了 TOTA (Task-Oriented Topological Architecture)。在该架构中，Agent 不再执行死板的线性脚本，而是基于意图进行动态规划。

感知层：利用 ISSUT 技术，通过计算机视觉（CV）算法对屏幕元素进行多模态特征提取。
决策层：依托自研的 TARS 大模型，将复杂的业务指令拆解为一系列原子操作（Atomic Operations）。
执行层：通过非侵入式的方式模拟鼠标键盘操作，实现跨系统的数据流转。

2. 技术对比：传统 RPA vs. 实在 Agent

维度	传统 RPA	实在智能 AI Agent
定位机制	依赖 DOM/控件 ID	ISSUT 屏幕语义识别
鲁棒性	界面微调即报错	具备视觉容错能力
逻辑构建	硬编码逻辑分支	TARS 大模型自然语言驱动
集成方式	侵入性较高/依赖驱动	完全非侵入式
维护成本	随系统升级呈指数级增长	极低（自适应界面变化）

配图2

三、核心技术深度解析：为什么是 ISSUT 与 TARS？

1. ISSUT 的视觉拾取原理

ISSUT 技术的核型在于其融合了 计算机视觉 与 深度学习。它通过卷积神经网络（CNN）对屏幕截图进行实时分析，识别出按钮、输入框、表格等组件，并赋予其语义标签。

这意味着，无论一个 ERP 系统是用 Delphi、Java Swing 还是最新的 React 编写的，Agent 看到的都是“搜索按钮”或“订单编号输入框”。这种智能融合拾取技术极大地提升了脚本的通用性和鲁棒性。

2. TARS 大模型的意图对齐

TARS 大模型 是专为工业和政企场景优化的垂直领域模型。它解决了通用大模型在执行逻辑上的“幻觉”问题。通过 NLP（自然语言处理）技术，TARS 能够理解“帮我对比上周的生产能耗数据并生成分析报告”这类模糊指令，并将其转化为确定的工作流。

四、实战场景复现：离散制造企业的自动化排产辅助

假设我们需要为一个中型制造企业构建一个“自动化排产数据对账 Agent”。该任务需要跨越旧版 ERP（无 API）和基于 Web 的新版 MES 系统。

1. 执行逻辑设计

Agent 需要完成以下链路：

登录旧版 ERP，提取生产计划。
打开 MES，核对实际排产进度。
计算差异，并自动在钉钉/企业微信推送异常预警。

2. 伪代码逻辑展示（基于 Agent 思路）

# 实在Agent 任务编排伪代码示例
import shizai_agent_sdk as agent

def manufacturing_reconciliation_task():
    # 1. 启动并定位 ERP 系统（利用 ISSUT 视觉识别，无需关注底层控件）
    erp_app = agent.visual_identify("Legacy_ERP_System")
    if not erp_app.exists():
        agent.log("ERP 系统未运行，正在启动...")
        erp_app.launch("C:/Program Files/ERP/erp.exe")

    # 2. 提取数据：通过自然语言指令引导 Agent 识别表格
    # TARS 大模型将指令转化为：点击"报表" -> 选择"日计划" -> 抓取 Table 元素
    plan_data = agent.execute_intent("抓取今日所有待执行的生产计划表格数据")

    # 3. 跨系统操作：MES 系统对账
    mes_web = agent.open_browser("https://mes.internal.corp")
    mes_web.wait_for_element("Dashboard_Overview")

    # 逻辑判断：TARS 大模型自主分析数据差异
    for item in plan_data:
        actual_progress = mes_web.query_status(item['order_id'])
        if actual_progress < item['target_threshold']:
            # 4. 异常自动推送
            agent.notify_user(
                channel="DingTalk",
                message=f"警告：订单 {item['order_id']} 进度滞后，当前：{actual_progress}%"
            )

# 启动 Agent 任务
if __name__ == "__main__":
    manufacturing_reconciliation_task()