惊喜!接入 skywalking 也能直接故障定位了
文章介绍了如何利用商业可观测平台DataBuff接管开源链路工具SkyWalking,实现一键接入和智能故障定位。通过修改SkyWalking Agent的数据接收地址指向DataBuff服务器,用户可快速构建监控管道。演示中,测试环境部署了大模型Demo应用和DataBuff平台,通过停止MySQL容器制造故障后,DataBuff的因果AI引擎成功识别出数据库异常导致的接口故障,并提供根因分析和
前言
skywalking 是一款开源的链路工具,经常被开发人员使用。然而其后端功能羸弱、上手门槛高、缺乏商业化支持、代码质量风险大,都成为其难以在客户生产环境大规模部署的原因。
databuff 作为一款商业化的可观测平台工具,为此专门开发了相关特性、用以接管skywalking,能够实现 一键接入skywalking、并直接给出故障定位的结果。你只需把skywalking agent的数据发送地址修改为databuff server。
今天笔者就给大家演示一下接入skywalking的过程与效果,其他方面不做过多阐述:
1)使用 databuff的datahub 模块,一键接入skywalking agent 数据;
2)使用 databuff 因果AI引擎,自动定位demo应用的故障原因;
接下来我们先构建一套测试环境,用以演示上述的功能效果。
01 测试环境说明
Demo环境和操作背景:
图1:测试环境部署拓扑
测试环境说明:
1)右边部署一套大模型demo应用,主要包含3个组件:LLM service(前端)、MYSQL、LLM;在应用上部署skywalking agent;
2)左边部署一套databuff 平台,平台包含datahub(pipeline)管道、因果AI分析引擎等功能模块;
图2:测试Demo的应用界面
接下来, 我们按下面的步骤执行:
1.Pipeline创建:在databuff datahub 平台上创建Pipeline;
2.数据路由指定:配置 skywalking agent 文件,将数据接收地址指向 datahub ;
3.制造故障:在测试环境服务器上手动制造故障;
4.故障定位效果验证:在databuff 上查看告警,及故障定位效果;
02 操作演示
2.1 Pipeline 创建
模版一键创建Pipeline
DataHub产品中预定义多种快速接入的模版,直接使用,一键创建,快速对接数据。
点开创建的Pipeline,复制监听URL
至此,databuff 平台上接入skywalking的配置完成。
2.2 数据路由指定
配置skywalking 采集大模型应用服务的链路数据和JVM指标数据。
在skywalking Agent config中配置:
collector.backend_service=192.168.50.247:31800
然后直接启动服务,便可轻松接入。
服务启动命令:
# cd到大模型应用服务目录
cd /home/langchat/langchat-server/target
# java -jar启动大模型服务
java -javaagent:/home/skywalking-agent/skywalking-agent.jar Dskywalking.agent.service_name=LLM_DEMO -jar langchat-server.jar
2.3 制造故障
在demo应用上,手动停止mysql8(mysql8为容器启动):
[root@host254 target]# docker stop mysql8
mysql8
这里我们手动关闭mysql 之后服务发出异常情况
2.4 故障定位效果验证
登录databuff平台,查看智能告警内容,并查看请求异常链路
点击告警详情中的根因分析,查看智能定位原因。
这里可以看出,我们的数据库MySQL实例异常,然后导致的接口调用异常。
2.5 其他
在完成故障注入与定位演示后,DataBuff 平台还提供了一系列辅助能力,帮助用户进一步理解应用运行状态和系统资源消耗。
2.5.1 查看接收数据
查看应用请求链路和服务JVM指标,调用情况和服务拓扑。
该大模型主要有LLM_DEMO 问答系统,MySQL,还有第三方远程服务
查看调用远程大模型API链路信息,可以查看大模型应用与远程大模型调用的状态,耗时,以及该服务的一些系统资源指标。
2.5.2 查看智能告警内容
查看智能告警内容,并可调用链路观测,查看请求异常链路
2.5.3 查看AI智能分析
如果开启大模型AI配置,根因分析结果后,还会给出推荐处置内容,不但知道哪里有问题,还知道如何进行操作修复。
本次演示,我们通过DataBuff平台的DataHub,通过深度整合SkyWalking链路数据,为企业提供全栈式智能可观测解决方案。对于很多已经部署了skywalking的客户,他们可以直接把数据路由到databuff平台,即将享受分钟级的应用性故障定位能力。
更多推荐
所有评论(0)