AI架构师的实时推理系统监控：Prometheus+Grafana实战

假设你是一家AI奶茶店的老板：店里有个AI机器人（实时推理系统），能根据用户点单（请求）快速做出奶茶（推理结果）。机器人每小时做了多少杯？（吞吐量）每杯奶茶做了多久？（延迟）有没有做错？（错误率）原料够不够？（资源使用率）如果没有监控，机器人偷偷"摸鱼"（延迟升高）或"手抖"（错误率飙升），你根本不知道——等客户投诉时，损失已经造成。本文的核心目的：用Prometheus+Grafana解决AI推

⁵²º᭄424

932人浏览 · 2025-09-14 09:51:37

⁵²º᭄424 · 2025-09-14 09:51:37 发布

AI架构师的实时推理系统监控：Prometheus+Grafana实战

关键词：实时推理系统、Prometheus、Grafana、指标采集、可视化Dashboard、告警机制、AI运维
摘要：AI模型从实验室走向生产时，实时推理系统的稳定性直接决定了产品体验——推荐算法延迟1秒会流失用户，图像识别错误率飙升会影响业务效果。本文用"AI奶茶店"的生活类比，从核心概念讲透Prometheus（时序数据管家）+Grafana（数据可视化画家）的组合逻辑，再通过完整实战步骤（Docker部署、自定义Exporter、Dashboard搭建），教你搭建一套能"看得到、早预警、快定位"的AI推理监控体系。无论你是AI架构师、运维工程师还是开发人员，都能从中学到可落地的监控方法论。

背景介绍

目的和范围

假设你是一家AI奶茶店的老板：店里有个AI机器人（实时推理系统），能根据用户点单（请求）快速做出奶茶（推理结果）。你需要知道：

机器人每小时做了多少杯？（吞吐量）
每杯奶茶做了多久？（延迟）
有没有做错？（错误率）
原料够不够？（资源使用率）

如果没有监控，机器人偷偷"摸鱼"（延迟升高）或"手抖"（错误率飙升），你根本不知道——等客户投诉时，损失已经造成。

本文的核心目的：用Prometheus+Grafana解决AI推理系统的"看不见"问题，让你像看奶茶店的实时订单看板一样，轻松掌握系统状态。
范围：覆盖从"指标采集"到"可视化"再到"告警"的完整流程，不涉及复杂的分布式追踪（如Jaeger）或日志分析（如ELK）。

预期读者

AI架构师：需要为推理系统设计监控方案
运维工程师：负责AI服务的稳定运行
开发人员：想给自家AI模型加监控
对AI运维感兴趣的新手：能快速入门

文档结构概述

概念破冰：用"AI奶茶店"类比讲清Prometheus、Grafana、Exporter的角色
原理拆解：Prometheus的指标类型、Grafana的可视化逻辑
实战步骤：Docker部署整套系统→自定义Exporter→搭建Dashboard→设置告警
应用场景：推荐系统、图像识别等真实场景的监控实践
趋势挑战：AI原生监控的未来方向

术语表

核心术语定义

术语	类比解释	专业定义
实时推理系统	AI奶茶店的机器人：接订单→做奶茶→出结果	部署在线上的AI模型服务，接收实时请求并返回结果（如TensorFlow Serving、TorchServe）
Prometheus	记日记的店员：定时问机器人"做了多少杯"，按时间记下来	开源时序数据库，通过"拉取"方式采集指标，存储时间序列数据
Grafana	画图表的设计师：把日记做成"每小时订单趋势图"挂墙上	开源数据可视化工具，连接Prometheus生成Dashboard
Exporter	机器人身上的传感器：把"做奶茶时间"转换成数字告诉店员	指标采集工具，将系统/服务状态转换成Prometheus能理解的格式（如Node Exporter监控CPU）
指标（Metric）	机器人的"做奶茶时间"“卖出杯数”	可量化的系统状态（如请求数、延迟、CPU使用率）

缩略词列表

TSDB：时序数据库（Time Series Database，如Prometheus）
Exporter：指标采集器
Dashboard：可视化看板

核心概念与联系：用AI奶茶店讲透逻辑

故事引入：AI奶茶店的"监控刚需"

你开了家"AI茶语"奶茶店，主打"10秒做一杯定制奶茶"。开业前两周，生意火爆，但逐渐出现问题：

客户投诉"等了3分钟才拿到奶茶"，但你不知道机器人哪里慢了；
有天机器人连续做错10杯芋圆奶茶，你直到客户找上门才发现；
牛奶用完了，机器人还在接订单，导致"无原料"错误。

你意识到：必须给机器人装个"监控大脑"——能实时看它的状态，出问题时提前预警。这时候，Prometheus+Grafana组合登场了：

Prometheus像个"记日记的店员"，每10秒问机器人一次：“刚才做了多少杯？每杯用了多久？牛奶剩多少？”，然后把答案按时间记在本子上；
Grafana像个"设计师"，把日记里的数字做成彩色折线图（每小时订单量）、进度条（牛奶剩余量）、红色警报灯（错误率超过5%），挂在你办公室的墙上；
Exporter像"机器人身上的传感器"，把机器人的"做奶茶时间""牛奶剩余量"转换成数字，让店员能听懂。

核心概念解释：像给小学生讲童话

概念一：实时推理系统——AI世界的"奶茶机器人"

实时推理系统是AI模型的"生产车间"，它的工作流程像极了奶茶机器人：

接订单：接收用户请求（如"我要一杯少糖芋圆奶茶"→对应"识别一张猫的图片"）；
查配方：调用训练好的模型（如"芋圆奶茶的配方"→对应"ResNet18图像分类模型"）；
做奶茶：用模型处理请求（如"煮茶+加芋圆+放牛奶"→对应"输入图片→模型计算→输出分类结果"）；
出结果：返回给用户（如"递奶茶"→对应"返回’这是一只猫’的JSON结果"）。

它的核心要求是**“快"和"准”**：快（延迟低）才能让用户满意，准（错误率低）才能留住客户。

概念二：Prometheus——时序数据的"日记管家"

Prometheus的职责是**“记好每一笔账”**，它的工作方式像极了店员记日记：

定时拉取：每10秒（可配置）去问机器人（通过Exporter）：“刚才10秒做了多少杯？”（类似"拉取指标"）；
按时间存储：把答案写成"2024-05-01 10:00:00 → 5杯"，"2024-05-01 10:00:10 → 6杯"这样的时间序列；
支持查询：你可以问它：“今天上午10点到11点，平均每秒做了多少杯？”（用PromQL查询）。

Prometheus的"超能力"是处理时间序列数据——它能快速计算"过去5分钟的平均延迟"“每小时的错误率”，这是普通数据库做不到的。

概念三：Grafana——数据的"可视化画家"

Grafana的职责是**“把数字变成故事”**，它像极了把日记做成图表的设计师：

连接数据源：先找到Prometheus的"日记本"（配置Prometheus为数据源）；
画图表：用"折线图"画"每小时订单量"，用"柱状图"画"不同奶茶的延迟"，用"进度条"画"牛奶剩余量"；
做看板：把这些图表拼成一个Dashboard，挂在墙上让你一眼看清全局。

Grafana的"超能力"是可视化交互——你可以点击图表放大某段时间，或者 hover 看具体数值，甚至设置"红色警戒线"（如延迟超过1秒时变红）。

概念四：Exporter——系统状态的"翻译官"

Exporter的职责是**“把系统状态翻译成数字”**，它像极了机器人身上的传感器：

比如Node Exporter：是"服务器的传感器"，能告诉Prometheus"CPU用了多少"“内存剩多少”；
比如自定义Exporter：是"机器人的专属传感器"，能告诉Prometheus"做一杯奶茶用了0.8秒"“今天做错了3杯”。

Exporter的工作原理很简单：暴露一个/metrics端点，Prometheus访问这个端点就能拿到指标（比如http://localhost:8000/metrics）。

核心概念之间的关系：像"奶茶店团队分工"

四个核心概念的关系，就像奶茶店的团队协作：

AI推理系统（机器人）：主角，负责做奶茶；
Exporter（传感器）：翻译官，把机器人的状态转换成数字；
Prometheus（店员）：记录员，定时拉取数字并按时间存储；
Grafana（设计师）：展示员，把数字做成图表看板。

用流程图表示就是：

graph TD
A[AI推理系统\n（奶茶机器人）] --> B[Exporter\n（传感器）]
B --> C[Prometheus\n（记日记的店员）]
C --> D[Grafana\n（画图表的设计师）]
C --> E[Alertmanager\n（告警通知）]

核心概念原理：Prometheus的"三板斧"

Prometheus能成为AI监控的"首选工具"，靠的是三个核心设计：

指标类型：用4种类型覆盖所有系统状态；
拉取模式：主动找Exporter要数据，更灵活；
PromQL查询语言：能快速计算复杂指标。

1. 指标类型：4种类型覆盖所有场景

Prometheus定义了4种指标类型，对应奶茶店的4种需求：

类型	类比	例子	特点
Counter（计数器）	总卖出奶茶杯数	`inference_requests_total`（总推理请求数）	只会增加，不会减少（除非重置）
Gauge（仪表盘）	当前排队人数	`cpu_usage_percent`（CPU使用率）	可增可减，反映"当前状态"
Histogram（直方图）	奶茶制作时间分布（如≤10秒的有多少杯）	`inference_latency_seconds_bucket`（推理延迟分布）	统计数据落在不同区间的数量，能算分位数（如95%的请求≤1秒）
Summary（摘要）	95%的奶茶制作时间≤10秒	`inference_latency_seconds_summary`（推理延迟摘要）	直接给出分位数，不需要自己计算

重点：AI推理系统最常用的是Histogram——因为它能告诉你"大多数请求的延迟是多少"，比如"95%的推理请求在1秒内完成"，这是Gauge和Counter做不到的。

2. 拉取模式：为什么不"推送"？

很多监控工具用"推送"模式（如StatsD）：Exporter把数据推给监控系统。但Prometheus用"拉取"（Pull）模式，原因有三个：

更灵活：Prometheus能主动发现新的Exporter（比如新增一个推理实例）；
更容易排查问题：如果Exporter挂了，Prometheus能立刻发现（拉取不到数据）；
更节省资源：Exporter不需要一直推送数据，只需要暴露/metrics端点。

3. PromQL：时序数据的"查询魔法"

PromQL是Prometheus的查询语言，能像"魔法咒语"一样把原始数据变成有用的指标。比如：

计算每秒请求数：rate(inference_requests_total[5m])（过去5分钟的平均每秒请求数）；
计算平均延迟：avg(inference_latency_seconds_sum / inference_latency_seconds_count)（总延迟/总请求数）；
计算95分位延迟：histogram_quantile(0.95, sum(rate(inference_latency_seconds_bucket[5m])) by (le))（95%的请求延迟≤这个值）。

核心算法原理 & 具体操作步骤

算法原理：Histogram的分位数计算

AI推理系统中，分位数（如95分位、99分位）是最核心的指标之一——它能反映"大多数用户的体验"。比如"95分位延迟≤1秒"，意味着95%的用户等待时间不超过1秒，只有5%的用户会等更久。

Histogram的分位数计算原理，用奶茶店的例子讲：
假设你记录了1000杯奶茶的制作时间，分成4个区间（桶）：

≤10秒：100杯
≤20秒：500杯
≤30秒：950杯
≤60秒：1000杯

总请求数是1000，95分位的意思是"找一个时间T，使得95%的奶茶制作时间≤T"。计算步骤：

计算目标累计数：1000 × 0.95 = 950；
找最小的桶边界：当桶边界是30秒时，累计数刚好是950；
结果：95分位延迟是30秒。

用PromQL表达就是：

histogram_quantile(0.95, sum(rate(inference_latency_seconds_bucket[5m])) by (le))

histogram_quantile(0.95, ...)：计算95分位；
sum(rate(...[5m])) by (le)：按桶边界（le）求和过去5分钟的指标增长率；
inference_latency_seconds_bucket：Histogram的桶指标。

具体操作步骤：从0到1搭建监控系统

接下来，我们用Docker Compose快速部署一套监控系统，包含：

TorchServe：运行ResNet18图像分类模型（AI推理系统）；
自定义Exporter：监控TorchServe的延迟、错误率；
Prometheus：采集并存储指标；
Grafana：可视化Dashboard；
Node Exporter：监控服务器CPU、内存。

步骤1：环境准备

安装Docker（https://docs.docker.com/get-docker/）；
安装Docker Compose（https://docs.docker.com/compose/install/）；
下载ResNet18模型文件：https://download.pytorch.org/models/resnet18-f37072fd.pth，保存到model-store目录，并转换成TorchServe的.mar格式（参考TorchServe文档）。

步骤2：编写Docker Compose配置

创建docker-compose.yml文件，内容如下：

version: '3.8'
services:
  # 1. Prometheus：时序数据库
  prometheus:
    image: prom/prometheus:v2.45.0
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml  # 挂载配置文件
    ports:
      - "9090:9090"  # 暴露Web端口

  # 2. Grafana：可视化工具
  grafana:
    image: grafana/grafana:9.5.2
    ports:
      - "3000:3000"  # 暴露Web端口
    volumes:
      - grafana-data:/var/lib/grafana  # 持久化数据
    environment:
      - GF_SECURITY_ADMIN_PASSWORD=admin  # 默认密码

  # 3. TorchServe：AI推理系统（运行ResNet18模型）
  torchserve:
    image: pytorch/torchserve:0.8.2
    ports:
      - "8080:8080"  # 推理接口
      - "8081:8081"  # 管理接口
    volumes:
      - ./model-store:/home/model-server/model-store  # 挂载模型目录
    command: ["torchserve", "--start", "--model-store", "/home/model-server/model-store", "--models", "resnet18=resnet18.mar"]

  # 4. 自定义Exporter：监控TorchServe的延迟和错误率
  inference-exporter:
    build: ./exporter  # 用exporter目录的Dockerfile构建
    ports:
      - "8000:8000"  # 暴露/metrics端点
      - "5000:5000"  # 暴露推理代理接口

  # 5. Node Exporter：监控服务器资源
  node-exporter:
    image: prom/node-exporter:v1.6.1
    ports:
      - "9100:9100"  # 暴露/metrics端点

# 持久化Grafana数据
volumes:
  grafana-data:

步骤3：编写Prometheus配置

创建prometheus.yml文件，配置Exporter的拉取规则：

global:
  scrape_interval: 10s  # 每10秒拉取一次指标
  evaluation_interval: 10s  # 每10秒评估告警规则

# 拉取配置：告诉Prometheus要拉哪些Exporter的指标
scrape_configs:
  # 1. 自定义推理Exporter
  - job_name: 'inference-exporter'
    static_configs:
      - targets: ['inference-exporter:8000']  # Docker Compose的服务名

  # 2. Node Exporter（服务器资源）
  - job_name: 'node-exporter'
    static_configs:
      - targets: ['node-exporter:9100']

  # 3. TorchServe官方Exporter（可选）
  - job_name: 'torchserve'
    static_configs:
      - targets: ['torchserve:8081']

步骤4：编写自定义Exporter

Exporter的作用是监控TorchServe的推理延迟和错误率。我们用Python+Flask+prometheus_client库实现：

创建exporter目录，里面放3个文件：
- Dockerfile：构建Exporter镜像；
- requirements.txt：依赖库；
- app.py：Exporter代码。

（1）Dockerfile

FROM python:3.10-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY app.py .
CMD ["python", "app.py"]

（2）requirements.txt

flask==2.3.2
prometheus-client==0.17.0
requests==2.31.0

（3）app.py（核心代码）

from flask import Flask, request, jsonify
import requests
import time
from prometheus_client import start_http_server, Histogram, Counter

app = Flask(__name__)

# ------------------------------
# 1. 定义Prometheus指标
# ------------------------------
# 推理延迟：Histogram（桶边界：0.1, 0.5, 1.0, 2.0秒）
INFERENCE_LATENCY = Histogram(
    name='inference_latency_seconds',
    documentation='Time taken to perform inference (including TorchServe call)',
    buckets=[0.1, 0.5, 1.0, 2.0]
)

# 推理错误数：Counter
INFERENCE_ERRORS = Counter(
    name='inference_errors_total',
    documentation='Number of failed inference requests'
)

# 总推理请求数：Counter
INFERENCE_REQUESTS = Counter(
    name='inference_requests_total',
    documentation='Total number of inference requests'
)

# TorchServe的地址
TORCHSERVE_URL = 'http://torchserve:8080/predictions/resnet18'

# ------------------------------
# 2. 推理代理接口：转发请求到TorchServe
# ------------------------------
@app.route('/infer', methods=['POST'])
def infer():
    # 记录请求开始时间
    start_time = time.time()
    INFERENCE_REQUESTS.inc()  # 总请求数+1

    try:
        # 1. 获取请求数据（假设是图片的Base64编码）
        data = request.get_json()
        image_base64 = data.get('image_base64')

        # 2. 转发请求到TorchServe
        response = requests.post(
            TORCHSERVE_URL,
            data=image_base64,
            headers={'Content-Type': 'application/json'}
        )
        response.raise_for_status()  # 触发HTTP错误（如404、500）

        # 3. 记录延迟
        latency = time.time() - start_time
        INFERENCE_LATENCY.observe(latency)

        # 4. 返回结果
        return jsonify(response.json())

    except Exception as e:
        # 记录错误数
        INFERENCE_ERRORS.inc()
        return jsonify({'error': str(e)}), 500

# ------------------------------
# 3. 启动服务
# ------------------------------
if __name__ == '__main__':
    # 启动Prometheus的/metrics端点（端口8000）
    start_http_server(8000)
    # 启动Flask服务（端口5000）
    app.run(host='0.0.0.0', port=5000, debug=False)

步骤5：启动所有服务

在项目根目录执行：

docker-compose up -d

检查服务是否启动：

Prometheus：http://localhost:9090（能看到Web界面）；
Grafana：http://localhost:3000（默认账号admin，密码admin）；
自定义Exporter：http://localhost:8000/metrics（能看到指标）；
TorchServe：http://localhost:8080/ping（返回"Healthy"）。

步骤6：配置Grafana Dashboard

Grafana的核心是Dashboard——把Prometheus的指标变成可视化图表。我们来做一个"AI推理系统监控看板"：

（1）添加Prometheus数据源

登录Grafana（http://localhost:3000）；
点击左侧"Configuration"→"Data Sources"→"Add data source"；
选择"Prometheus"；
填写URL：http://prometheus:9090（Docker Compose的服务名）；
点击"Save & Test"，显示"Data source is working"即可。

（2）创建Dashboard

点击左侧"+“→"Dashboard"→"Add new panel”；
每添加一个图表，都要填写查询语句和样式设置。下面是几个核心图表的配置：

图表1：每秒推理请求数

查询语句：rate(inference_requests_total[5m])
图表类型：折线图
标题：“每秒推理请求数（QPS）”
说明：反映系统的吞吐量，QPS越高，系统越繁忙。

图表2：平均推理延迟

查询语句：avg(inference_latency_seconds_sum / inference_latency_seconds_count)
图表类型：折线图
标题：“平均推理延迟（秒）”
说明：平均延迟越低，用户体验越好。

图表3：95分位推理延迟

查询语句：histogram_quantile(0.95, sum(rate(inference_latency_seconds_bucket[5m])) by (le))
图表类型：折线图
标题：“95分位推理延迟（秒）”
说明：重点关注这个指标，它反映了"大多数用户的等待时间"。

图表4：推理错误率

查询语句：rate(inference_errors_total[5m]) / rate(inference_requests_total[5m])
图表类型：柱状图
标题：“推理错误率（%）”
说明：错误率超过5%时，需要立刻排查问题。

图表5：服务器CPU使用率

查询语句：avg(node_cpu_seconds_total{mode="idle"} == 0) * 100（或更简单的100 - avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m]))）
图表类型：进度条
标题：“服务器CPU使用率（%）”
说明：CPU使用率超过80%时，可能导致延迟升高。

（3）保存Dashboard

配置完所有图表后，点击"Save"，给Dashboard起个名字（如"AI推理系统监控看板"），就能在Grafana首页看到它了。

步骤7：设置告警规则

监控的终极目标是**“提前预警”**——当系统出问题时，在用户投诉前收到通知。Prometheus的Alertmanager负责告警，我们来配置一个"错误率过高"的告警：

（1）编写告警规则文件

创建alert.rules.yml文件：

groups:
- name: inference-alerts  # 告警组名
  rules:
  # 规则1：错误率超过5%持续1分钟
  - alert: HighInferenceErrorRate
    expr: rate(inference_errors_total[5m]) / rate(inference_requests_total[5m]) > 0.05
    for: 1m  # 持续1分钟才触发
    labels:
      severity: critical  # 严重级别（critical/ warning/ info）
    annotations:
      summary: "高推理错误率（{{ $labels.instance }}）"
      description: "{{ $labels.instance }}的推理错误率在过去5分钟达到了{{ $value | humanizePercentage }}，超过了5%的阈值！"

（2）修改Prometheus配置

在prometheus.yml中添加告警规则和Alertmanager地址：

# 告警规则文件
rule_files:
  - "alert.rules.yml"

# Alertmanager配置
alerting:
  alertmanagers:
  - static_configs:
    - targets: ['alertmanager:9093']  # 假设Alertmanager运行在alertmanager服务

（3）部署Alertmanager

在docker-compose.yml中添加Alertmanager服务：

services:
  # Alertmanager：告警通知
  alertmanager:
    image: prom/alertmanager:v0.25.0
    volumes:
      - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml
    ports:
      - "9093:9093"

（4）配置Alertmanager通知

创建alertmanager.yml文件，配置邮件通知（需要SMTP服务器）：

global:
  smtp_smarthost: 'smtp.qq.com:465'  # QQ邮箱SMTP服务器
  smtp_from: 'your-email@qq.com'     # 发件人邮箱
  smtp_auth_username: 'your-email@qq.com'  # 用户名
  smtp_auth_password: 'your-email-password'  # 授权码（不是登录密码）
  smtp_hello: 'qq.com'
  smtp_require_tls: false

route:
  group_by: ['alertname']  # 按告警名分组
  group_wait: 30s          # 分组等待时间
  group_interval: 5m       # 分组间隔时间
  repeat_interval: 12h     # 重复通知间隔时间
  receiver: 'email-notifications'  # 默认接收器

receivers:
- name: 'email-notifications'
  email_configs:
  - to: 'your-email@qq.com'  # 收件人邮箱
    subject: 'AI推理系统告警：{{ .CommonAnnotations.summary }}'
    html: '{{ .CommonAnnotations.description }}'

（5）测试告警

手动触发错误：比如停止TorchServe服务，然后发送请求到Exporter的/infer接口，错误率会飙升到100%。等待1分钟后，Alertmanager会发送邮件通知。

项目实战：代码解读与分析

自定义Exporter的核心逻辑

在app.py中，我们用prometheus_client库定义了三个指标：

INFERENCE_REQUESTS：总请求数（Counter）；
INFERENCE_LATENCY：推理延迟（Histogram）；
INFERENCE_ERRORS：错误数（Counter）。

关键代码解析：

start_http_server(8000)：启动Prometheus的/metrics端点，Prometheus会定时访问这个端点拉取指标；
INFERENCE_REQUESTS.inc()：每收到一个请求，总请求数+1；
INFERENCE_LATENCY.observe(latency)：记录推理延迟，自动分到对应的桶里；
INFERENCE_ERRORS.inc()：发生错误时，错误数+1。

PromQL查询的核心逻辑

rate(metric[5m])：计算过去5分钟的指标增长率，用于Counter类型（因为Counter只会增加，rate能得到每秒的增量）；
sum(...) by (le)：按桶边界（le）求和，用于Histogram的分位数计算；
histogram_quantile(0.95, ...)：计算95分位，这是AI推理系统最关注的指标之一。

Grafana Dashboard的设计思路

Dashboard的设计要遵循**“聚焦核心指标”**的原则：

顶部：放吞吐量（QPS）、延迟（平均+95分位）、错误率——这些是"业务核心指标"；
中间：放服务器资源（CPU、内存、磁盘）——这些是"系统核心指标"；
底部：放告警历史或日志——方便快速定位问题。

实际应用场景

场景1：AI推荐系统监控

推荐系统的核心指标：

业务指标：QPS（每秒推荐请求数）、延迟（推荐接口的响应时间）、点击率（用户点击推荐内容的比例）；
系统指标：CPU使用率、内存使用率、Redis查询延迟（推荐系统常依赖Redis缓存）；
模型指标：推荐准确率（推荐内容的相关性）、召回率（能覆盖的用户兴趣范围）。

监控价值：如果QPS突然飙升，说明有流量高峰（如大促），需要扩容；如果延迟升高，可能是Redis缓存穿透，需要优化缓存策略。

场景2：AI图像识别系统监控

图像识别系统的核心指标：

业务指标：QPS、延迟、错误率（识别错误的比例）、准确率（识别正确的比例）；
系统指标：GPU使用率（图像识别常依赖GPU加速）、显存使用率、磁盘IO（读取图像文件的速度）；
模型指标：Top-1准确率（第一个推荐结果正确的比例）、Top-5准确率（前5个结果有一个正确的比例）。

监控价值：如果GPU使用率达到100%，说明模型推理能力不足，需要增加GPU实例；如果错误率飙升，可能是模型过拟合（比如训练数据和生产数据分布不一致）。

场景3：AI语音识别系统监控

语音识别系统的核心指标：

业务指标：QPS、延迟、错误率（识别错误的比例）、实时并发数（同时处理的语音请求数）；
系统指标：CPU使用率（语音处理常依赖CPU的浮点运算）、内存使用率、网络带宽（传输语音数据的速度）；
模型指标：词错误率（WER，识别结果与真实文本的差异）。

监控价值：如果实时并发数超过阈值，说明系统达到瓶颈，需要扩容；如果词错误率升高，可能是语音数据的噪声太大（比如环境音太多），需要优化模型的噪声鲁棒性。

工具和资源推荐

Exporter推荐

Node Exporter：监控服务器CPU、内存、磁盘（必装）；
Docker Exporter：监控Docker容器的资源使用（https://github.com/google/cadvisor）；
TorchServe Exporter：TorchServe官方Exporter（https://github.com/pytorch/serve/tree/master/exporters）；
Prometheus Python Client：自定义Exporter的首选库（https://github.com/prometheus/client_python）。

Grafana插件推荐

Pie Chart Panel：饼图插件，用于展示错误类型分布；
Table Panel：表格插件，用于展示告警历史；
Alertmanager Plugin：Alertmanager集成插件，用于查看告警状态；
Worldmap Panel：地图插件，用于展示全球请求分布（适用于多地域部署）。

资源推荐

书籍：《Prometheus: Up & Running》（Prometheus官方指南）、《Grafana Cookbook》（Grafana实战）；
文档：Prometheus官方文档（https://prometheus.io/docs/）、Grafana官方文档（https://grafana.com/docs/）；
Dashboard库：Grafana官方Dashboard库（https://grafana.com/grafana/dashboards/），可直接导入现成的Dashboard。

未来发展趋势与挑战

趋势1：AI原生监控

随着大模型（LLM）的普及，AI原生监控将成为趋势——用LLM自动分析指标异常。比如：

当延迟升高时，LLM会自动关联CPU、内存、数据库查询时间等指标，给出"CPU使用率过高导致延迟升高"的结论；
当错误率飙升时，LLM会自动分析日志，找出"模型加载失败"的根因。

趋势2：更细粒度的监控

AI推理系统的监控将从"服务层"深入到"模型层"：

模型层指标：比如Transformer模型的每一层推理时间、注意力机制的计算时间；
样本层指标：比如每个用户请求的输入特征分布（是否与训练数据一致）；
推理路径指标：比如多模型串联推理时，每个模型的延迟贡献。

趋势3：云原生整合

随着Kubernetes成为AI部署的标准，Prometheus Operator将成为主流——它能自动管理Prometheus的配置、Exporter的发现、告警规则的更新。比如：

当新增一个推理Pod时，Prometheus Operator会自动添加该Pod的Exporter到拉取配置；
当修改告警规则时，Prometheus Operator会自动更新Prometheus的配置。

挑战1：高 cardinality指标

高 cardinality（高基数）是指指标的标签组合太多，比如给每个用户的请求加user_id标签，会导致Prometheus的存储量爆炸。解决方法：

减少不必要的标签：比如用user_type（新用户/老用户）代替user_id；
聚合指标：比如按user_type聚合请求数，而不是按user_id；
使用远端存储：比如用Thanos（Prometheus的分布式扩展）存储高基数指标。

挑战2：实时性要求

AI推理系统的延迟要求越来越高（比如自动驾驶需要亚毫秒级延迟），监控系统的实时性也需要提升：

缩短拉取间隔：比如从10秒缩短到1秒，但会增加Prometheus的负载；
使用流处理：比如用Flink处理实时指标，实时计算分位数、错误率；
边缘监控：在边缘节点部署Prometheus，减少网络延迟。

挑战3：多模型多实例监控

当部署了上百个模型实例时，如何统一监控？解决方法：

标签管理：给每个模型实例加model_name、instance_id标签，方便按模型/实例过滤指标；
Dashboard模板：用Grafana的模板变量（如$model_name），快速切换不同模型的Dashboard；
告警分组：按model_name分组告警，避免同一模型的多个实例同时触发告警。

总结：学到了什么？

核心概念回顾

实时推理系统：AI模型的生产车间，负责处理实时请求；
Prometheus：时序数据管家，拉取并存储指标；
Grafana：数据可视化画家，将指标变成Dashboard；
Exporter：系统状态翻译官，将系统状态转换成Prometheus能理解的指标。

概念关系回顾

四个核心概念的协作流程：

Exporter采集实时推理系统的指标；
Prometheus定时拉取Exporter的指标，存储为时间序列；
Grafana连接Prometheus，生成可视化Dashboard；
Prometheus根据告警规则触发Alertmanager，发送通知。

实战收获

通过本文的实战，你已经掌握了：

用Docker Compose快速部署Prometheus+Grafana+TorchServe；
用Python写自定义Exporter监控推理延迟和错误率；
用Grafana搭建AI推理系统的监控Dashboard；
用Prometheus+Alertmanager设置告警规则。

思考题：动动小脑筋

如果你要监控一个多模型的推理系统（比如同时部署了图像识别和语音识别模型），如何设计Exporter的指标，区分不同的模型？（提示：用model_name标签）
如果推理系统的延迟突然升高，你会从哪些指标入手排查问题？（提示：CPU/GPU使用率、内存使用率、数据库查询延迟、模型加载时间）
如何用Prometheus设置告警规则，比如当GPU使用率超过90%时发Slack通知？（提示：用Node Exporter的GPU指标，配置Alertmanager的Slack接收器）

附录：常见问题与解答

Q1：Prometheus为什么用拉取（Pull）而不是推送（Push）？

A：拉取模式更灵活——Prometheus能主动发现新的Exporter，更容易排查Exporter的问题（比如拉取不到数据说明Exporter挂了）。如果需要推送（比如短生命周期的任务），可以用Pushgateway（Prometheus的推送代理）。

Q2：Grafana连接Prometheus失败怎么办？

A：检查三点：

Prometheus的URL是否正确（比如Docker Compose中的服务名是prometheus，不是localhost）；
Prometheus是否在运行（用docker-compose ps查看）；
网络是否通（用docker exec -it grafana ping prometheus测试）。

Q3：自定义Exporter的指标名有什么规范？

A：遵循以下规范：

用snake_case（下划线分隔）；
包含单位（比如_seconds表示时间，_bytes表示字节）；
含义明确（比如inference_latency_seconds比latency更清楚）。

扩展阅读 & 参考资料

Prometheus官方文档：https://prometheus.io/docs/introduction/overview/
Grafana官方文档：https://grafana.com/docs/grafana/latest/
TorchServe官方文档：https://pytorch.org/serve/
《Prometheus: Up & Running》（作者：Brian Brazil）
《AI Infrastructure: Designing and Deploying Large-Scale Machine Learning Systems》（作者：Lakshmanan Chidambaram）

结语：监控不是目的，而是手段——它能帮你"看见"AI推理系统的状态，让你在问题爆发前解决它。作为AI架构师，你的职责不仅是设计优秀的模型，还要确保模型能稳定运行。Prometheus+Grafana是你手中的"监控利器"，用好它，让你的AI系统更可靠！