运维智能体(SRE Agent)技术分级能力要求

​ 随着 AI 技术、运维自动化能力的不断发展,基于智能体的运维能力作为一种高效、自主的新型运维工具,能够实现更智能的资源调度、自动化运维和精准的故障预测,从而降低运营成本并提高系统稳定性。
点击下载原文

1.范围

​ 本标准规范了在开展运维智能体建设或度量时,如何指导运维场景应用、协同能力构建、智能体能力建设和基智能体底座建设。

​ 本标准同时适用于服务商提供的运维智能体服务和运维智能体软件产品,即面向公共用户提供的运维智能体服务和私有环境下的软件产品或解决方案;依据交付形式的差异,本标准针对不同的使用场景其技术指标要求略有不同。

2.规范性引用文件

​ 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

​ GB/T 32400-2015 信息技术 云计算 概览与词汇

​ YDB 144-2014 云计算服务协议参考框架

3.术语和定义

​ 下列术语和定义适用于本文。

3.1 人工智能 AI

​ 人工智能是利用数字计算机或者由数字计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统。

4 成熟度模型分级框架图和含义

4.1 框架图在这里插入图片描述

​ 图1 运维智能体(SRE Agent)技术分级能力要求框架图

4.2 分级概述

​ 系统成熟度模型,共分为3个级别,每个级别中按照不同程度说明,呈现递进的方式,高级别内容宜包含低级别内容,无需重复引用。表1中定义了不同级别的英文和中文名称。

​ 表1 运维智能体(SRE Agent)技术分级能力要求分级概述

级别 英文 中文 定义
1级 Initial Level 初始级 智能运维体通过数据收集支撑运维人员开展日常运维工作。
2级 Comprehensive Level 全面级 智能体具备分析和解决方案输出能力,在运维人员审批情况下具备可执行能力。
3级 Excellent Level 优秀级 智能体具备自主收集、分析、执行和自主迭代能力。

​ 每级满足90%的能力项即可认为达到该级别要求,根据参评模块的通过级别分为初始级、全面级和优秀级。

5.智能体层

5.1 感知能力

5.1.1 运维数据感知

​ 描述:对应用系统产生的结构化/半结构化运维数据(指标、日志、拓扑等)进行采集、处理与分析的能力,支撑运维决策闭环。

​ 1 级:应具备基础运维数据采集以及简单分析能力,包括对非结构化数据的基础处理能力。

​ 2 级:应具备多源数据关联处理能力,支持预定义多种异常模式,应具备实时数据处理能力。

​ 3 级:应具备预测性感知能力。基于历史数据预测潜在故障(如时序预测),自动生成预测分析报告。

5.1.2 环境数据感知

​ 描述:对物理设施环境(机房、网络设备等)及外部条件(温湿度、电力等)环境数据的采集、数据与分析的能力,主要涉及机房基础设施数据。

​ 1 级:应具备采集基础环境参数能力,无实时分析能力。

​ 2 级:应具备多维环境关联感知能力,具备实时分析能力。

​ 3 级:应具备对设备状态与环境参数之间的因果关系进行深度感知能力,环境风险自动预警,支持数字孪生环境仿真。

5.1.3 交互数据感知

​ 描述:

​ 1级:应具备识别显性意图的能力,如识别预定义指令模式,并具备单通道数据感知能力。

​ 2级:应具备识别隐形意图感知能力,能够关联历史记录辅助解析用户潜在偏好需求,同时支持多模态数据感知能力。

​ 3级:应具备认知级数据感知能力,能够深入理解复杂交互场景,通过交互数据预测用户需求,具备多角色协作认知能力。

5.2 控制能力

5.2.1 信息理解能力

5.2.1.1 信息表层理解

​ 描述:

​ 1级:应具备自然语言的理解和基础的上下文理解能力,能够有效的识别信息的真实意图

​ 2级:应具备多语言和多模态数据的能力,有效可以将多种模态数据实现关联综合得出有效的意图

​ 3级:应具备结合多语言多模态和上下文,同时能够有效识别信息的情感,达到类人话和拟人化的信息理解感知能力,从而能够知道一个人的真实意图,真实表达情感

5.2.1.2 信息逻辑推理

​ 描述:

​ 1级:

​ a) 应具备简单的上下文的理解能力和学习能力。

​ b) 应具备结合上下文信息结合推理大模型以及规则实现简单的规则推理能力。

​ 2级:

​ a) 应具备结合上下文信息通过结合推理大模型,知识图谱以及COT等复杂思维链技术实现复杂的因果推理能力

​ b) 应具备能够根据使用者的偏好和习惯进行信息理解的自适应的能力。

​ 3级:

​ a) 应具备结合上下文能够有效的感知到具体情境进行给予情境的复杂信息推理,达到针对信息的理解、推理、思考以及新的问题能力。

​ b) 应具备通过与使用者的交互不断学习和优化,结合机器学习算法,根据用户的反馈调整自己的模型,提高理解能力,实现全面自适应和自学习的能力。

​ c) 应具备基于交互结果自主开展知识内容的纠错和融合并进行反向提示的能力。

5.2.2 记忆能力

5.2.2.1 记忆存储范围

​ 描述:

​ 1级:应建立结构化知识库,存储专家规则(告警处理方案)、系统架构(拓扑关系)、基础运维案例(故障代码对照表)等显性知识。

​ 2级:应扩展存储非结构化运维数据,包括全量日志事件、语音处置记录、系统配置变更历史等,构建包含时间戳、因果关系的多维数据湖。

​ 3级:应形成跨系统知识图谱,实现设备画像、故障模式、处置方案的三维关联存储,支持知识溯源与版本演化。

5.2.2.2 记忆存储方式

​ 描述:

​ 1级:

​ a) 应构建基于关系型数据库的结构化知识库(如CMDB),结合文档数据库(如Elasticsearch)实现对日志、告警等时序数据的关键字检索。支持通过 SQL或检索语句精准定位特定时间段的变更记录、事件日志与配置信息,满足标准化、静态运维知识的存取需求。

​ b) 应具备基本的栈和队列数据结构,能够存储和快速检索最近的运维数据。例如,支持存储最新周期(24小时)的系统状态(如CPU使用率、内存占用)、告警信息(如故障通知)以及用户查询记录,并实现基于时间顺序的简单访问。

​ 2级:

​ a) 应在结构化与关键词检索的基础上,进一步引入向量数据库(如Milvus),实现对运维文档、案例知识等非结构化数据的语义化储与自然语言检索。通过文本向量化(Embedding)提升对复杂问题描述的理解与模糊匹配能力。同时部署分布式 KV存储系统(如Redis Cluster),用于管理智能体的短期记忆与上下文状态,增强对实时运维环境的感知与响应。

​ b) 应具备多级缓存架构(内存/SSD/HDD),支持跨周期(7×24小时)数据暂存,实现时序数据的关联记忆及预测短期内的系统行为和趋势,支持并发多任务处理时的缓存隔离。例如,基于最近的告警序列预测潜在故障,或根据系统负载变化趋势提供资源调整建议。

​ 3级:

​ a) 应在语义化记忆基础上,构建多模态融合存储引擎,统一管理结构化规则、非结构化日志、向量化知识和知识关系。系统具备跨模态知识关联与动态记忆调度能力,可根据任务上下文实现记忆策略自优化,支撑复杂推理、多轮对话与智能规划。

​ b) 应具备自适应学习能力,能够根据历史数据和实时反馈动态调整缓存策略,优化数据存储和检索效率。例如,智能识别高频访问数据类型并优先缓存,或根据运维场景(如高峰期)自动调整缓存容量和淘汰策略。

5.2.2.3 记忆存储管理

​ 描述:

​ 1级:应具备基本的数据更新机制,能够定期或手动更新记忆中的数据和知识。例如,支持管理员手动上传最新的运维手册,或按固定周期刷新告警规则。

​ 2级:应具备增量更新和数据老化机制,能够自动更新和清理过时数据。例如,通过日志增量索引更新故障记录,或自动归档超过一定时间(如6个月)的无用数据。

​ 3级:应具备自适应学习和多层次存储策略,能够根据系统状态和用户反馈动态调整记忆内容和结构。例如,基于异常检测模型的反馈更新告警阈值,或结合内存缓存(短期记忆)和持久化存储(长期记忆)优化访问效率。

5.2.2.4 记忆整合

​ 描述:

​ 1级:应具备基本的数据整合能力,能够将不同数据库中的数据进行关联和查询。例如,关联关系型数据库中的变更记录和文档型数据库中的日志,生成故障分析报告。

​ 2级:应具备跨模态数据整合能力,能够有效整合结构化和非结构化数据,以及短期和长期记忆。例如,将实时的告警数据(短期记忆)与历史案例库(长期记忆)结合,推荐最优解决方案。

​ 3级:应具备认知级记忆整合能力,能够理解和推理记忆中的复杂关系,支持高级运维决策和自动化。例如,通过分析知识图谱中的服务依赖和历史故障数据,自动生成系统优化的执行计划,或在多故障并发时动态调整处理优先级。

5.2.3 计划能力

5.2.3.1 计划分解

​ 描述:运维智能体通过融合知识驱动与动态决策机制,将复杂任务转化为基于多方案评估的自适应子任务序列,在执行中结合上下文实时优化分解策略。

​ 1级:应具备支持提示词工程和外部知识库模式,可让用户通过COT,GOT,TOT以及知识外挂的形式进行计划的理解和任务的分解,将复杂任务分解为多个可执行的子任务。

​ 2级:应具备多套计划的生成,同时评估多套计划方案,从而择优最优计划进行子任务的拆解。

​ 3级:应在生成的基础之上同时能够感知上下文实现计划的动态调整和自我优化,实现边规划,边优化的能力。

5.2.3.2 路径规划

​ 描述:针对特定运维目标或待解决问题,规划出从当前状态到目标状态的有效操作序列或行动路径。

​ 1级:能够基于预定义的、简单的运维SOP(标准操作流程)或知识库中的固定模板,为单一、明确的运维任务选择或生成固定的操作路径。

  1. 应具备路径规划主要基于脚本、简单工作流引擎的固定模板。
  2. 应支持基于关键词匹配或简单规则查找预设的解决方案路径。
  3. 计划通常是单一的、顺序执行的简单任务列表,不考虑或仅考虑极少数明确的系统状态分支。
  4. 应具备需要人工确认路径的适用性。

​ 2级:能够根据当前系统实时状态、上下文信息以及多源知识(如历史事件、运维文档),动态生成或调整针对复杂运维场景的操作路径。能够评估不同路径的成本、风险和收益。

  1. 应支持基于运维知识图谱、案例推理(CBR)或简单规划算法(如A*启发式搜索工具)生成多步骤路径。

  2. 应能够提供多条备选路径,并根据预设的简单评估指标(如预计耗时、成功率)进行初步排序。

  3. 应能够处理带有条件分支和并行操作的路径。

  4. 应能够根据实时反馈初步调整路径。

  5. 应能从多个可行路径中选择较优的一个。

​ 3级:能够在高度不确定或信息不完全的环境下,主动探索和发现新的、甚至创新的解决方案路径。能够进行多目标、多约束下的复杂路径规划,并具备对规划路径的自我演进和优化能力。

  1. 应支持运用强化学习、生成式模型或复杂规划算法(如HTN分层任务网络, PDDL规划领域定义

语言)进行路径探索和生成。

  1. 应能够生成应对未知故障或全新运维需求的路径。
  2. 应能够进行预测性路径规划,预估不同路径的潜在影响和连锁反应,并具备路径执行过程中的

动态调整和自我修复能力(重规划)。

  1. 应路径规划考虑长期影响和系统整体最优。
  2. 应能够从历史执行效果中学习,持续优化路径生成策略。
5.2.3.3 资源分配

​ 描述:为规划的路径或任务,合理地分配所需的各类运维资源(如计算、存储、网络、工具、人力

等)。

​ 1级:能够根据预设的规则或任务模板,为单个任务分配固定的、预定义的资源。

  1. 应能够为预定义路径中的每个固定步骤,分配静态的、预设的资源量,资源需求与任务类型一

一对应。

  1. 资源分配通常是基于经验值或固定规则,不考虑当前实际负载或资源可用性,不考虑资源间的

竞争和冲突。

  1. 应具备主要针对单一类型的资源(如指定某个脚本执行所需的CPU)。

​ 2级:能够根据任务的优先级、实时资源可用性以及简单的成本效益分析,动态地为多个并发任务分配多种类型的资源。具备基本的资源冲突检测和解决能力。

  1. 应基于标签的资源调度、资源池管理、简单队列系统、配置管理数据库(CMDB)中的基本资源信息。

  2. 应支持基于策略的资源分配(如高优先级任务优先获取资源)

  3. 应能够考虑基本的资源依赖和互斥关系,进行初步的资源冲突检测和排队。

  4. 应能够监控资源使用情况,并进行初步的调整(如高/中/低负载模式下的不同分配策略)。

​ 3级:能够进行全局的、预测性的资源优化分配,最大化资源利用率和运维效率。能够根据任务的动态需求、资源的潜在价值和风险,智能地进行资源调度、共享和回收。

  1. 应能够基于对行动路径/网络的动态分析和预测,进行精细化、按需、弹性的资源分配和回收。

  2. 应能够综合考虑任务优先级、SLA要求、成本效益、资源共享与竞争、潜在瓶颈等多重因素,进行全局最优或次优的资源调度。

  3. 应支持资源的动态抢占、预留、释放和再平衡,以适应计划执行过程中的变化和不确定性。

  4. 应能够考虑资源分配对业务指标的间接影响。

5.2.3.4 任务调度

​ 描述:智能体根据任务的依赖关系、优先级、资源可用性、时间窗口、调度策略(如梯进式、组合式、网状)等因素,安排任务执行顺序和时间,并对调度过程进行优化以达成特定目标(如效率、成本、稳定性)的能力。

​ 1级:根据任务的依赖关系、优先级、截止时间以及资源可用性,确定任务的执行顺序和时机。

  1. 应能够执行基本的顺序调度和基于优先级的调度。任务通常是独立的或具有简单的线性前后置关系。

  2. 应支持基于固定时间表(如Cron Job)或简单队列(如FIFO、LIFO)的任务触发。

  3. 应能够对于梯进式调度执行预定义的、固定步骤的简单任务序列,每个步骤完成后自动或手动触发下一个。

  4. 应能够对于组合式调度执行预先定义好的、简单的任务包,其中任务间的关系固定。

  5. 网状调度能力非常有限,可能仅限于处理几个节点间的简单、明确的依赖。

  6. 应支持调度冲突(如资源不足、时间重叠)主要依赖人工发现和介入解决。

​ 2级:能够根据任务的动态优先级、资源约束和任务间的依赖关系(如DAG有向无环图),进行较为复杂的任务调度。支持并发执行和事件驱动的调度。

  1. 应能够实现基于动态优先级和明确依赖关系的调度。能够理解和处理任务间的直接依赖(如任务A完成后才能执行任务B)。

  2. 应支持梯进式调度,能够处理具有明确前后置依赖关系的多阶段任务,例如分阶段的发布流程

(如蓝绿部署的准备、切换、验证阶段),并能根据前一阶段的简单结果(成功/失败)决定是否进入

下一阶段。

  1. 应能够实现组合式调度,将多个相关的原子任务组合成一个逻辑工作流进行调度,例如将数据备份、数据校验、日志归档等任务组合成一个完整的日终处理流程,并能管理组合内任务的执行顺序和基本错误处理。

  2. 应能够对于网状调度处理具有少量交叉依赖或并行分支的任务集合,并进行基本的冲突检测和解决(如资源等待、简单重试)。

  3. 应支持基于事件触发的调度和基本的并发控制。例如:在变更窗口内,根据变更任务间的依赖关系和预估时长,自动编排变更步骤的执行顺序;当一个组合任务中的某个子任务失败时,能暂停后续相关子任务并告警。

​ 3级:能够进行全局最优的任务调度,综合考虑系统的整体吞吐量、响应时间、成本、SLA等多重目标。能够预测任务执行时间和潜在瓶颈,自适应调整调度策略以应对环境变化和对目标的不确定性影响。

  1. 应能够进行智能化的预测性与适应性调度优化。基于AI预测(如任务执行时长预测、资源需求预测、潜在失败率预测)和实时态势感知,动态生成和调整全局最优的调度策略。

  2. 应能够实现复杂的、自适应的梯进式调度,根据每个阶段的执行结果和实时反馈动态调整后续阶段的策略和资源,例如在自动化故障恢复中,根据初步诊断结果选择不同的修复路径分支,并逐级深入执行,每个阶段都可以有动态的准入准出条件。

  3. 应支持高度灵活的组合式调度,能够动态构建和优化包含异构任务(如计算密集型、IO密集型、人工审批节点)的复杂任务链或服务编排,并能为组合任务设定整体优化目标(如整体耗时最短、资源消耗最低、业务影响最小)。

  4. 应能够进行网状调度优化,处理大规模、具有复杂非线性依赖关系(如多对多、条件触发、循环依赖(需有终止条件))的任务网络。利用图论、AI规划、分布式协调等技术,实现全局最优或近优的调度方案,有效解决资源竞争、死锁预防、关键路径优化、任务漂移等问题。

  5. 应支持调度目标可配置且支持多目标优化(如最小化总体执行时间、最大化资源利用率、保障高优任务SLA、最小化业务影响等),并能通过调整输入参数分析,评估不同调度方案对目标的潜在影响。例如:在系统升级过程中,智能体能动态调度上百个微服务的部署、测试、灰度发布任务,这些任务间存在复杂的网状依赖,智能体实时平衡发布速度、系统稳定性和资源消耗,并能在某个服务升级出现异常时,智能调整后续服务的升级计划(可能涉及回滚、跳过、替换等复杂逻辑),甚至自动触发补偿任务。

5.3 行动能力

​ 描述:运维智能体以灵活且智能的执行策略,在保障操作完整落实的基础上,通过动态分析与持续学习,精准优化执行过程,实现资源高效利用与目标达成的双重提升。

​ 1级:应能够按照既定计划或指令,实现操作的完整执行和调用。

​ 2级:应能够按照既定计划或指令,同时结合上下文实现行动的有效性验证和反馈。

​ 3级:应能够通过上下文以及多次的执行行为历史,能够在执行过程中学习执行的模式,以及信息差异实现行动的资源,性能和成本,目标的最优执行评估,做到有效执行,减少非必要调用。

了解更多关于运维智能体技术分级的详细信息,请点击下方链接下载完整白皮书

https://databuff.com/resourceDetail/whitepaper5

的执行策略,在保障操作完整落实的基础上,通过动态分析与持续学习,精准优化执行过程,实现资源高效利用与目标达成的双重提升。

​ 1级:应能够按照既定计划或指令,实现操作的完整执行和调用。

​ 2级:应能够按照既定计划或指令,同时结合上下文实现行动的有效性验证和反馈。

​ 3级:应能够通过上下文以及多次的执行行为历史,能够在执行过程中学习执行的模式,以及信息差异实现行动的资源,性能和成本,目标的最优执行评估,做到有效执行,减少非必要调用。

了解更多关于运维智能体技术分级的详细信息,请点击下方链接下载完整白皮书

点击下载原文 https://databuff.com/resourceDetail/whitepaper5

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐