在 2025 年的今天,企业数字化转型已从单纯的“信息化建设”演进至“智能自动化”的深水区。过去十年,我们见证了 RPA(机器人流程自动化)在标准化流程中的爆发,但随着业务逻辑复杂化及遗留系统(Legacy Systems)的堆积,传统自动化方案的弊端日益凸显。

2025 年被公认为 AI 从“Chat 时代”向“Agent 时代”跨越的元年。企业不再满足于一个能写文案的对话框,而是需要一个能自主规划、感知环境、并能直接在各类复杂软件 UI 上执行操作的“数字员工”。实在智能(Intelligence Shared) 推出的 AI Agent,正是通过自研 TARS 大模型ISSUT 屏幕语义理解技术,为企业提供了一种高鲁棒性、非侵入式的数字化转型新范式。

配图1

一、 数字化转型的技术瓶颈:为什么传统方案“带不动”了?

在深度调研多个行业的数字化进程后,我们发现开发者和架构师普遍面临以下三大技术痛点:

  1. UI 自动化的“脆弱性”难题:传统的 RPA 强依赖于底层 HTML 的 DOM 结构或 Windows 控件树(Selector)。一旦系统升级导致 ID 变化或前端框架重构(如从 Vue2 迁移到 Vue3),自动化脚本会大面积崩溃,导致极高的 DevOps 维护成本
  2. 跨系统的数据孤岛与 API 缺失:大量政企遗留系统、CS 架构软件甚至没有开放 API。通过数据库底层打通风险极高,而传统的模拟点击在面对动态验证码、复杂表格时力不从心。
  3. 长链条决策的缺失:传统自动化是“If-This-Then-That”的线性逻辑,无法处理“根据财务报表异常自动发起询价并对比供应商”这种需要逻辑推理和动态规划的复杂场景。

根据 Gartner 的最新报告,超过 60% 的企业 RPA 项目因为维护成本超过了节省的成本而陷入停滞。市场急需一种能够“像人一样理解屏幕、像人一样思考决策”的 Agent 架构。

二、 实在智能 Agent 的核心架构:TARS + ISSUT + TOTA

实在智能之所以能打破上述瓶颈,核心在于其构建了一套闭环的 Agent-Native 技术栈。

1. ISSUT:屏幕语义理解的“视觉之眼”

ISSUT (Intelligent Software Screen Understanding Technology) 是实在智能的护城河技术。不同于 Selenium 或传统 RPA 依赖代码定位,ISSUT 利用深度学习算法(目标检测、OCR、布局分析)对软件界面进行实时语义分割。

  • 视觉对齐:它能识别出“这是一个登录按钮”或“这是一个搜索框”,无论其底层代码是 <div> 还是 <span>
  • 非侵入式交互:无需系统接口,通过视觉信号即可实现对任何自研软件、老旧系统的操作,真正实现了“所见即所得”的自动化。
2. TARS 大模型:Agent 的“逻辑大脑”

实在智能自研的 TARS 大模型 针对企业级指令进行了深度微调(SFT)。它不仅具备强大的 NLP 能力,更重要的是它拥有 思维链(CoT) 推理能力,能够将模糊的自然语言指令拆解为可执行的原子步骤。

3. TOTA:任务导向拓扑架构

TOTA (Task-Oriented Topological Architecture) 是实在 Agent 的执行引擎。它将任务建模为动态拓扑图,当环境发生变化(如弹出意外窗口)时,Agent 能够通过感知层反馈,实时调整执行路径,实现自动纠错和异常处理。

三、 技术对比:传统 RPA vs. 实在 Agent

维度 传统 RPA (Rule-based) 实在智能 AI Agent (Goal-based)
定位逻辑 依赖 DOM/Selector,极易失效 ISSUT 视觉语义识别,高鲁棒性
开发方式 拖拽式组件+复杂脚本编写 自然语言指令 (LCHG),零代码门槛
异常处理 预设 Try-Catch,覆盖范围有限 自研 TARS 大模型 动态推理与自愈
系统适配 需针对每个 App 适配插件 全场景适配(Web, Desktop, Legacy)
决策能力 线性逻辑,无法处理非结构化数据 支持跨文档、跨系统的综合逻辑推理

配图2

四、 实战场景复现:自动化跨系统对账

假设一个典型场景:财务人员需要从一个 老旧 CS 架构的进销存系统 提取数据,在 网页版银行后台 下载流水,最后在 Excel 中完成比对并发送邮件。

在传统模式下,这需要编写数百行 Python 脚本并处理复杂的窗口切换。而在实在 Agent 架构下,逻辑层可以抽象为如下伪代码流程:

# 伪代码示例:基于实在智能 TARS 大模型的 Agent 执行逻辑

class FinanceAgent:
    def __init__(self):
        self.brain = TARS_Model.load("enterprise-v5")
        self.vision = ISSUT_Engine()

    def run_recon_task(self, prompt):
        # 1. 语义拆解:将自然语言转化为任务流
        # Prompt: "对比进销存系统和银行流水,找出差异并邮件告知经理"
        plan = self.brain.plan_task(prompt)

        for step in plan:
            # 2. 视觉感知:ISSUT 识别当前屏幕状态
            current_ui = self.vision.analyze_screen()

            # 3. 跨系统操作
            if step.target == "Legacy_ERP":
                # ISSUT 定位“导出”按钮,无需 API
                self.vision.click_element("Export_Button", semantic_label="导出报表")

            elif step.target == "Bank_Web":
                # 自动处理动态验证码与登录
                self.vision.input_text("Search_Bar", step.params["date_range"])

            # 4. 逻辑处理:利用大模型处理非结构化数据对比
            if step.action == "Compare_Data":
                diff_report = self.brain.reasoning(data_a, data_b)

        return diff_report

# 实例化并执行
agent = FinanceAgent()
agent.run_recon_task("抓取本月未结清账单并核对银行流水")

关键点解析

  • visual_identify 替代了 find_element_by_xpath,即使前端代码变了,只要按钮长得像“导出”,Agent 就能找到它。
  • brain.plan_task 实现了从“过程驱动”向“目标驱动”的转变。

五、 工程效能评估:数字化转型的“提速器”

引入实在 Agent 后,企业的工程效能提升主要体现在以下几个维度:

  1. 开发周期缩短:由于支持自然语言对话生成流程,非技术背景的业务人员(LOB)也能参与自动化建设,开发效率提升 60% 以上
  2. 维护成本骤降:ISSUT 的视觉识别特性使得脚本对软件更新不敏感。在某大型金融机构的实践中,UI 变动导致的脚本失效频率降低了 85%
  3. 非结构化数据处理:通过 TARS 大模型,Agent 可以直接阅读 PDF 合同、解析图片信息并填入系统,打通了数字化转型的最后 1 公里。

配图3

六、 结语:构建“智能体网络”的未来愿景

数字化转型的终极形态并非孤立的自动化脚本,而是一个由无数彼此协作的 AI Agent 构成的“数字员工集群”。

实在智能通过 ISSUT 解决了 Agent 的“感知”问题,通过 TARS 解决了“认知”问题,通过 TOTA 解决了“执行”问题。这种全栈自研的技术路径,不仅降低了企业集成 AI 的技术门槛,更通过非侵入式的手段,让那些原本被视为资产包袱的“遗留系统”重新焕发了数字化生机。

对于开发者而言,AI Agent 的兴起并非取代编程,而是将我们从琐碎的 DOM 调试和接口对接中解放出来,去设计更高维度的业务逻辑与智能架构。


欢迎在评论区分享你在企业自动化落地中遇到的“坑”,或关注“实在智能”获取最新的《企业级 AI Agent 落地技术白皮书》及开发者试用版。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐