从“聊天”到“办事”：深度解析实在智能 AI Agent 如何重构企业数字化转型底层架构

摘要：2025年企业数字化转型进入"智能自动化"新阶段，传统RPA方案面临UI适配脆弱、系统孤岛和决策能力不足三大瓶颈。实在智能推出基于TARS大模型和ISSUT屏幕语义理解技术的AI Agent解决方案，通过视觉识别界面元素、自然语言任务拆解和动态拓扑执行架构，实现高鲁棒性的非侵入式自动化。该方案相比传统RPA具备零代码开发、跨系统适配和智能决策等优势，可将开发效率提升60%

实在智能RPA

189人浏览 · 2026-03-05 17:54:39

实在智能RPA · 2026-03-05 17:54:39 发布

在 2025 年的今天，企业数字化转型已从单纯的“信息化建设”演进至“智能自动化”的深水区。过去十年，我们见证了 RPA（机器人流程自动化）在标准化流程中的爆发，但随着业务逻辑复杂化及遗留系统（Legacy Systems）的堆积，传统自动化方案的弊端日益凸显。

2025 年被公认为 AI 从“Chat 时代”向“Agent 时代”跨越的元年。企业不再满足于一个能写文案的对话框，而是需要一个能自主规划、感知环境、并能直接在各类复杂软件 UI 上执行操作的“数字员工”。实在智能（Intelligence Shared） 推出的 AI Agent，正是通过自研 TARS 大模型 与 ISSUT 屏幕语义理解技术，为企业提供了一种高鲁棒性、非侵入式的数字化转型新范式。

配图1

一、数字化转型的技术瓶颈：为什么传统方案“带不动”了？

在深度调研多个行业的数字化进程后，我们发现开发者和架构师普遍面临以下三大技术痛点：

UI 自动化的“脆弱性”难题：传统的 RPA 强依赖于底层 HTML 的 DOM 结构或 Windows 控件树（Selector）。一旦系统升级导致 ID 变化或前端框架重构（如从 Vue2 迁移到 Vue3），自动化脚本会大面积崩溃，导致极高的 DevOps 维护成本。
跨系统的数据孤岛与 API 缺失：大量政企遗留系统、CS 架构软件甚至没有开放 API。通过数据库底层打通风险极高，而传统的模拟点击在面对动态验证码、复杂表格时力不从心。
长链条决策的缺失：传统自动化是“If-This-Then-That”的线性逻辑，无法处理“根据财务报表异常自动发起询价并对比供应商”这种需要逻辑推理和动态规划的复杂场景。

根据 Gartner 的最新报告，超过 60% 的企业 RPA 项目因为维护成本超过了节省的成本而陷入停滞。市场急需一种能够“像人一样理解屏幕、像人一样思考决策”的 Agent 架构。

二、实在智能 Agent 的核心架构：TARS + ISSUT + TOTA

实在智能之所以能打破上述瓶颈，核心在于其构建了一套闭环的 Agent-Native 技术栈。

1. ISSUT：屏幕语义理解的“视觉之眼”

ISSUT (Intelligent Software Screen Understanding Technology) 是实在智能的护城河技术。不同于 Selenium 或传统 RPA 依赖代码定位，ISSUT 利用深度学习算法（目标检测、OCR、布局分析）对软件界面进行实时语义分割。

视觉对齐：它能识别出“这是一个登录按钮”或“这是一个搜索框”，无论其底层代码是 <div> 还是 <span>。
非侵入式交互：无需系统接口，通过视觉信号即可实现对任何自研软件、老旧系统的操作，真正实现了“所见即所得”的自动化。

2. TARS 大模型：Agent 的“逻辑大脑”

实在智能自研的 TARS 大模型 针对企业级指令进行了深度微调（SFT）。它不仅具备强大的 NLP 能力，更重要的是它拥有 思维链（CoT） 推理能力，能够将模糊的自然语言指令拆解为可执行的原子步骤。

3. TOTA：任务导向拓扑架构

TOTA (Task-Oriented Topological Architecture) 是实在 Agent 的执行引擎。它将任务建模为动态拓扑图，当环境发生变化（如弹出意外窗口）时，Agent 能够通过感知层反馈，实时调整执行路径，实现自动纠错和异常处理。

三、技术对比：传统 RPA vs. 实在 Agent

维度	传统 RPA (Rule-based)	实在智能 AI Agent (Goal-based)
定位逻辑	依赖 DOM/Selector，极易失效	ISSUT 视觉语义识别，高鲁棒性
开发方式	拖拽式组件+复杂脚本编写	自然语言指令 (LCHG)，零代码门槛
异常处理	预设 Try-Catch，覆盖范围有限	自研 TARS 大模型动态推理与自愈
系统适配	需针对每个 App 适配插件	全场景适配（Web, Desktop, Legacy）
决策能力	线性逻辑，无法处理非结构化数据	支持跨文档、跨系统的综合逻辑推理

配图2

四、实战场景复现：自动化跨系统对账

假设一个典型场景：财务人员需要从一个 老旧 CS 架构的进销存系统 提取数据，在 网页版银行后台 下载流水，最后在 Excel 中完成比对并发送邮件。

在传统模式下，这需要编写数百行 Python 脚本并处理复杂的窗口切换。而在实在 Agent 架构下，逻辑层可以抽象为如下伪代码流程：

# 伪代码示例：基于实在智能 TARS 大模型的 Agent 执行逻辑

class FinanceAgent:
    def __init__(self):
        self.brain = TARS_Model.load("enterprise-v5")
        self.vision = ISSUT_Engine()

    def run_recon_task(self, prompt):
        # 1. 语义拆解：将自然语言转化为任务流
        # Prompt: "对比进销存系统和银行流水，找出差异并邮件告知经理"
        plan = self.brain.plan_task(prompt)

        for step in plan:
            # 2. 视觉感知：ISSUT 识别当前屏幕状态
            current_ui = self.vision.analyze_screen()

            # 3. 跨系统操作
            if step.target == "Legacy_ERP":
                # ISSUT 定位“导出”按钮，无需 API
                self.vision.click_element("Export_Button", semantic_label="导出报表")

            elif step.target == "Bank_Web":
                # 自动处理动态验证码与登录
                self.vision.input_text("Search_Bar", step.params["date_range"])

            # 4. 逻辑处理：利用大模型处理非结构化数据对比
            if step.action == "Compare_Data":
                diff_report = self.brain.reasoning(data_a, data_b)

        return diff_report

# 实例化并执行
agent = FinanceAgent()
agent.run_recon_task("抓取本月未结清账单并核对银行流水")

关键点解析：

visual_identify 替代了 find_element_by_xpath，即使前端代码变了，只要按钮长得像“导出”，Agent 就能找到它。
brain.plan_task 实现了从“过程驱动”向“目标驱动”的转变。

五、工程效能评估：数字化转型的“提速器”

引入实在 Agent 后，企业的工程效能提升主要体现在以下几个维度：

开发周期缩短：由于支持自然语言对话生成流程，非技术背景的业务人员（LOB）也能参与自动化建设，开发效率提升 60% 以上。
维护成本骤降：ISSUT 的视觉识别特性使得脚本对软件更新不敏感。在某大型金融机构的实践中，UI 变动导致的脚本失效频率降低了 85%。
非结构化数据处理：通过 TARS 大模型，Agent 可以直接阅读 PDF 合同、解析图片信息并填入系统，打通了数字化转型的最后 1 公里。

配图3

六、结语：构建“智能体网络”的未来愿景

数字化转型的终极形态并非孤立的自动化脚本，而是一个由无数彼此协作的 AI Agent 构成的“数字员工集群”。

实在智能通过 ISSUT 解决了 Agent 的“感知”问题，通过 TARS 解决了“认知”问题，通过 TOTA 解决了“执行”问题。这种全栈自研的技术路径，不仅降低了企业集成 AI 的技术门槛，更通过非侵入式的手段，让那些原本被视为资产包袱的“遗留系统”重新焕发了数字化生机。

对于开发者而言，AI Agent 的兴起并非取代编程，而是将我们从琐碎的 DOM 调试和接口对接中解放出来，去设计更高维度的业务逻辑与智能架构。

欢迎在评论区分享你在企业自动化落地中遇到的“坑”，或关注“实在智能”获取最新的《企业级 AI Agent 落地技术白皮书》及开发者试用版。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026 AI搜索优化新玩法，免费GEO工具真香

2048 AI社区

AI时代的大数据合规：伦理与法律的平衡之道

随着《通用数据保护条例》（GDPR）、《中华人民共和国个人信息保护法》（PIPL）等法规的落地，以及AI伦理（如欧盟AI伦理框架）的普及，大数据合规已从“可选动作”变为“必选项”。本文聚焦AI驱动的大数据场景（如精准营销、智能风控、医疗AI），探讨如何在法律约束（如数据最小化、用户同意）与伦理要求（如公平性、透明度）之间建立平衡，覆盖技术实现、管理流程与组织文化三个维度。解析大数据合规的核心概念（

2048 AI社区

AI PPT一键生成全实操教程｜5分钟出专业稿，职场/学生/技术人效率神器

AI PPT一键生成技术已成为办公效率升级的刚需工具，合规优质的工具可实现零基础快速出稿，5分钟产出专业级PPT。本篇内容均为实测实操干货，符合CSDN平台发文规范，无违规营销、无虚假数据、无负面表述，大家可放心参考使用。后续我会持续更新AI效率工具实测、办公技巧干货内容，欢迎大家交流探讨各类PPT创作与工具使用问题。