摘要: Apache SkyWalking 10.4 在 OAP 引擎、批处理队列与 BanyanDB 存储上持续演进;国产新开源 APM工具Databuff 则以 OTLP 三组件栈与 AI 原生多智能体见长。本文基于官方文档与 Demo 现场截图,对两套工具的架构进行对比解析。

2026 年做 APM 选型,很多人仍把 SkyWalking 当作「默认答案」——但 10.x 版本在引擎与存储上的 Breaking Change 并不少,另一边 OTel 原生 + AI 问数的新方案也在快速成熟。下文按「SkyWalking 10.4 四层架构 → Databuff 三组件栈 → 六维对比 → AI 原生实操」展开,关键结论用表格收束,便于对照自己团队的接入与运维成本。


§1 SkyWalking 10.4:四层架构

1.1 逻辑架构:Probe → OAP → Storage → UI

SkyWalking 官方将平台划分为四段[3]:

[ Probe 探针 ]  →  gRPC / OTLP / Zipkin / PromQL ...
        ↓
[ OAP 平台后端 ]  →  聚合 · 分析 · 流式处理 · 告警
        ↓
[ Storage 存储 ]  →  Elasticsearch / BanyanDB / MySQL / …
        ↓
[ UI ]  →  拓扑 · Trace · 指标 · 日志 · Profiling

Probe 侧覆盖多语言 Agent、Service Mesh(Istio/Envoy ALS)、eBPF Rover、Telegraf/Zabbix 等接入;数据模型统一为 Service → Instance → Endpoint → Process,并支持跨 Layer(K8s、Mesh、OS)的 Service Hierarchy[3]。

OAP(Observability Analysis Platform) 是架构重心:接收 Trace/Metrics/Logs/Events,经 OAL(指标分析)、MAL(Meter 分析)、LAL(日志分析)等 DSL 流水线生成实体与指标。10.4 起 MAL/LAL 走 V2 引擎,指标聚合与持久化 worker 池合并为 BatchQueue 调度[1]。

Storage 插件化,生产环境常见 Elasticsearch/OpenSearch 或 BanyanDB(SkyWalking 自研时序+追踪存储,10.x 持续加深耦合)。UI 为可定制 Web 控制台,支持 GraphQL / PromQL / LogQL 查询。

1.2 可验证的部署与端口事实

  • Docker / Kubernetes Quick Start 见官方 Setup 文档[4]
  • OAP 默认 gRPC 接收 11800,HTTP 12800;OTLP gRPC 通常为 4317 映射至 OAP(以实际 application.yml 为准)
  • 存储选型决定运维复杂度:ES 集群 + OAP 集群是常见生产拓扑,组件数明显高于「三容器」类方案

§2 Databuff:开源 OTel APM 与三组件架构

2.1 项目定位与亮点

Databuff(databuffopen)是 AI 原生 OpenTelemetry APM:先用 OTLP 标准接入 Trace/指标,再让 AI 直接读取同一套存储做问数、巡检与诊断[5]。相对 SkyWalking,差异化不在「多一个图表」,而在 接入协议默认 OTel + 平台内置多智能体

亮点 说明
OTLP 唯一接入 gRPC 4317 / HTTP 4318,与 OpenTelemetry SDK / Java Agent 直接对接,无专有探针绑定
三组件极简栈 Ingest(接入)→ Doris(存储)→ Web 平台(查询/告警/AI),Docker 一条命令安装[6]
指标从 Trace 派生 分钟级预聚合,一份遥测数据支撑 RED 与链路下钻
AI 原生融合 非外挂聊天框:专家通过 Tool 层直查指标、Trace、拓扑、告警[7]
MCP 开放 外部 MCP 服务可注册到数字专家,对话中调用第三方能力[8]

安装示例(公网脚本,安装后终端输出 UI 地址与 OTLP Endpoint)[6]:

curl -fsSL https://databuff.ai/databuff/ai-apm-install.sh | bash

应用侧只需标准 OTel 环境变量:

export OTEL_SERVICE_NAME=order-service
export OTEL_EXPORTER_OTLP_ENDPOINT=http://<ingest-host>:4318
java -javaagent:opentelemetry-javaagent.jar -jar order-service.jar

2.2 技术架构拆解

[ 应用 + OTel SDK/Agent ]
        │ OTLP 4317/4318
        ▼
[ Ingest ] ── Trace 组装 · 指标分钟聚合
        ▼
[ Doris ] ── 统一存储(Trace / 指标 / 拓扑 / 告警)
        ▼
[ Web 平台 ] ── 应用性能 UI + AI 专家层(Tool / Skill / Expert)

设计取舍:用统一存储换架构简单——AI 专家无需跨 ES + Kafka + 多微服务拼接上下文[7]。告警、服务红绿灯、全局拓扑、链路追踪在 Phase 1 即覆盖;AI 能力通过 Skill(行为)+ Tool(查数)+ Expert(角色) 三层扩展,新增能力以注册专家/工具为主,不必改 OAP 式 DSL[7]。


§3 SkyWalking vs Databuff:架构六维对比

维度 Apache SkyWalking 10.4 Databuff(databuffopen)
架构分层 Probe + OAP + Storage + UI 四层 Ingest + Doris + Web 三层
核心后端 OAP 集群(OAL/MAL/LAL 流水线) Ingest 轻量接入 + Doris 列存
默认接入 SkyWalking Agent + 多协议 Receiver OTLP 4317/4318 为主
存储 ES / BanyanDB / JDBC 等插件 Doris 统一存储
扩展模型 OAL/MAL/LAL YAML + 模块插件 AI Tool / Skill / Expert + MCP
AI 能力 AI Pipeline(URI 识别、基线告警等)[9] 对话式问数、巡检、多智能体编排
典型运维 OAP + 存储集群,规则 DSL 升级需回归 三容器起步,脚本安装
适用场景 四支柱一体、Mesh/eBPF、重度 SkyWalking 生态 OTel 统一接入、研发自运维、AI 辅助排障

选型提示(客观):

  • 已大规模使用 SkyWalking Agent、依赖 BanyanDB/ES 历史数据与 OAL 规则的团队,继续演进 10.4 成本最低。
  • 正在推进 OpenTelemetry 标准化、希望 减少组件数、并需要 自然语言查 Trace/指标 的团队,可并行 POC Databuff——二者可通过 OTLP 在不同环境分流,无需一次性迁移。

§4 Databuff AI 原生能力:Demo 实操

以下截图均来自 demo.databuff.ai 登录后的现场操作(2026-06-30),展示 AI 平台而非静态宣传图。

4.1 AI 对话入口:问数 + 巡检双模式

Databuff Demo · AI 平台首页在这里插入图片描述
图 4-1 · AI 平台默认对话页:支持 智能问数智能巡检 两种模式,底部可切换大模型;右侧提供「查服务列表 / 拓扑 / 趋势」等一键提示词,降低首次使用门槛。

4.2 智能问数:自然语言直出服务清单

在对话框选择「查询最近 1 小时的服务列表」,AI 大脑调度 智能问数专家,调用 APM 内置 Tool 返回结构化表格(含虚拟中间件节点与文字说明):

Databuff Demo · 智能问数结果
📷 请在此处插入图片:02-ai-query-service-list.png
图 4-2 · 问数结果示例:列出 service-a / service-b 及 Elasticsearch、MySQL、Redis、Kafka 等依赖;顶部显示「已完成思考,用时 11s · 10 步」——说明多步 Tool 调用而非单次 LLM 幻觉。排障时可继续追问「哪个服务 P99 最高」「画请求量趋势图」。

4.3 工具编排与 MCP 扩展

AI 架构的「手」是 Tool 层。工具管理 页展示 14 个本地 APM 内置工具(查指标、画趋势、派发专家任务等),并预留 MCP 工具 槽位,可把外部 SSE / Streamable HTTP MCP 服务挂到数字专家[8]:

Databuff Demo · 工具管理
📷 请在此处插入图片:03-ai-tools-mcp.png
图 4-3 · 本地工具注册表(如 brain.dispatchExpertTaskcommon.drawTrendCharts)与 MCP 工具分类;专家通过 Tool 访问统一 Doris 存储中的 Trace/指标,实现 数据驱动回答

与 SkyWalking AI Pipeline 的差异:SkyWalking 侧重遥测数据上的机器学习管道(如 URI 聚类、指标基线)[9];Databuff 把 对话式专家 + Tool/MCP 作为一级能力,面向值班工程师「用自然语言完成查询与巡检」的场景。


§5 小结

如果你需要… 更贴近
Mesh/eBPF、四支柱、BanyanDB、OAL 深度定制 SkyWalking 10.4
OTLP 标准接入、三组件部署、AI 问数/巡检/MCP Databuff

行业视角下,Gartner 在可观测性平台研究中强调,系统复杂度的飞升和运营负担激增,推动了对 AI SRE 智能体的主动管理和可靠性的需求[10]。未来的可观测性选型,正在从「选一个大而全后端」转向「协议标准化 + 架构简化 + 智能化交互」。SkyWalking 10.4 用引擎 V2 与 BatchQueue 夯实了 OAP 底座;Databuff 则用 OTel + Doris + 多智能体,把「问数据」变成平台原生操作。建议先按团队 OTel 进度各做一周 POC,用真实 Trace 量评估存储与查询延迟,再决定主线与并行方案。


引用资料

[1] https://skywalking.apache.org/docs/main/latest/readme/ (SkyWalking 10.4.0 官方文档与 Changelog)

[2] https://skywalking.apache.org/docs/main/latest/en/changes/changes-10.3.0/ (10.3.0 版本说明)

[3] https://skywalking.apache.org/docs/main/latest/en/concepts-and-designs/overview/ (架构概览:Probe / OAP / Storage / UI)

[4] https://skywalking.apache.org/docs/main/latest/en/setup/quick-start/ (Quick Start)

[5] https://github.com/databufflabs/databuff (Databuff 开源仓库)

[6] https://databuff.ai/databuff/ai-apm-install.sh (Databuff 安装脚本)

[7] https://demo.databuff.ai/ (Databuff 在线 Demo)

[8] Databuff 文档 · 外部 MCP 集成(公网文档站)

[9] https://skywalking.apache.org/docs/main/latest/en/ai-pipeline/introduction/ (SkyWalking AI Pipeline 介绍)

[10] https://www.gartner.com/reviews/market/observability-platforms (Gartner Observability Platforms 市场定义与能力说明)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐