一、传统数据分析的"痛点"

你是否也遇到过这样的场景?

周一早会上,老板问:"上周华东区销量最高的产品是什么?"你心想:这个简单,但需要找数据团队写SQL...

周二下午,业务部门急需一份用户行为分析报告,你提交需求后被告知:"排期已满,预计3天后交付..."

周三晚上,你还在加班等待数据分析师修改报表格式,因为指标定义和其他部门不一致...

在数字化转型的浪潮中,数据已成为企业最重要的资产,但是传统的数据分析模式存在一些痛点:

  • 技术门槛高:业务人员不懂SQL,无法自助分析需依赖数据团队,响应周期长;

  • 重复性工作多:数据团队80%时间处理重复查询,疲于奔命;

  • 数据口径不一致:各部门指标定义不同,数据对不上;

  • 数据孤岛严重:跨系统数据难以整合,分析耗时久

奇麟云数仓正式推出 DataAgent——您的专属智能数据合伙人,让数据工作化繁为简,让业务洞察触手可及。

二、DataAgent的实现架构

DataAgent 基于自主决策多Agent架构,构建了一个专业化、可扩展、高性能的智能数据分析平台,其核心架构如下图所示:

1. 架构设计理念

  • 专业化分工:每个Agent专注特定领域,确保专业性和准确性;

  • 智能协作:通过Supervisor Agent统一调度,实现复杂任务的智能分解,且能够自我发现问题并迭代解决;

  • 知识增强:基于RAG技术,借鉴VannaAI中向量存储的处理方式,将向量分为 DDL/Schemas、Doc文档、Question-SQL对;

  • 安全可控:从应用层进行数据权限的隔离,每个用户只能访问其具备权限的数据库表,确保数据安全;

2. 核心组件与技术

2.1 多Agent架构

DataAgent采用"专家团队+智能协调"的工作模式,全流程使用异步的 ReAct 模式,就像一个高效、自主决策的数据分析团队,其能力可以灵活扩展(增加团队成员或添加 MCP):

智能体

核心职责

专业领域

协调智能体(项目经理)

工作流编排、任务分配

意图理解、流程控制、制定分析计划,智能分配任务给合适的专家

SQL生成专家(技术专家)

SQL语句生成

将自然语言转换为精确的SQL查询(1个或者多个),确保查询安全性,基于数据结构生成最优查询

执行引擎(执行专家)

查询执行

高效执行SQL查询,处理查询结果格式,自动处理查询异常和超时

数据分析专家(业务专家)

数据分析洞察

深度分析数据趋势和模式,提供专业的业务洞察,识别数据异常和商业机会,生成可执行的业务建议

可视化专家(设计专家)

可视化配置

根据数据特征选择最佳图表类型,自动生成美观的可视化图表

报告编写专家(写作专家)

报告编写

将其他专家的输出整理成完整的报告

这样的Supervisor 设计模式有一下优势:

  • 专业化分工:每个Agent专注特定领域,确保专业性

  • 灵活编排:Supervisor Agent根据任务复杂度动态调度

  • 可扩展性:新的专业Agent可以无缝接入协作体系

  • 容错性:单个Agent故障不影响整体系统运行

智能协作流程

当用户提出问题时,DataAgent的工作流程如下:

配置化管理架构

  • 模型配置:支持多种LLM模型的统一管理,各个 Agent 可以选用不同的 LLM

  • 提示词模板:每个 Agent 专家对应一个YAML格式的提示词配置,支持热更新

上下文增强:

当我们需要缩小数据分析范围时,可以在和 Agent 对话时使用 hook 显式指定表,这样系统会将显式指定的表的优先级调至最高,通过增强提示词,提升回答准确性。此外也可以显式指定 MCP 工具,以使 Agent 能够精准的调用外部工具拓展其能力边界。

会话长期记忆:

系统通过会话窗口级的长期记忆,实现错误恢复、连续对话,保持多轮对话的上下文连续性,支持对前面查询结果的引用和追问,提升交互体验。

反馈学习机制:

支持用户对回答进行实时反馈,并且会讲这样的反馈增强到上下文中,达到学习优化的效果

2.2 RAG知识增强

在DataAgent中,RAG系统的作用是:

  • 知识库:存储企业的数据表结构、业务规则、历史查询等知识

  • 智能检索:根据用户问题,从知识库中检索最相关的信息

  • 增强生成:将检索到的知识注入到提示词中,提升回答准确性

我们将RAG知识分为两大类:

  • 通用知识:例如用户手册、语法说明,并且针对奇麟云数仓自研索引存储ArcherDB中的索引函数知识进行增强处理;

  • 私域知识:用户+数据主题粒度的私域知识

这里重点说明一下私域知识,借鉴目前较为成熟的AI框架Vanna,DataAgent将私域知识分为三类:

🏗️ DDL/Schemas(数据表结构知识)

作用:让Agent理解数据表的含义、结构以及字段信息,这部分知识是本系统的核心,非常重要

难点:数据结构发生变化后需要同步知识库,目前平台采用两种策略保证知识数据最新:

  1. 创建/编辑数据主题时会进行实时同步,在数据主题管理中也可以手动刷新;

  2. 平台会周期性进行数据主题表结构的同步,以最大程度保证知识库最新

存储内容:

CREATE TABLE orders (
    order_id INT PRIMARY KEY COMMENT '订单ID',
    product_name VARCHAR(255) COMMENT '产品名称',
    amount DECIMAL(10,2),
    order_date DATE COMMENT '订单日期',
    region VARCHAR(50) COMMENT '地域'
) COMMENT '订单表'

应用场景:

  • Agent知道有哪些表,每张表分别代表什么含义、分别有哪些字段

  • 理解字段的数据类型、含义

  • 了解表之间的关联关系

📚 Documentation(业务文档知识)

作用:存储业务规则、指标定义、操作说明,尤其是在实际应用中,有很大一部分的表结构缺失字段描述,更甚者字段名也不规范的场景下作用特别明显

存储内容:

订单表说明:
- 包含所有交易订单信息
- 每日凌晨2点更新
- amount字段表示订单金额(单位:元)
- region字段枚举值:华东、华南、华北、华中、西南、西北
- GMV定义:已支付订单的总金额

应用场景:

  • Agent理解业务术语和规则

  • 确保查询符合业务语义

  • 提供更准确的数据解读

📝 Question-SQL对(历史查询知识)

作用:学习历史查询模式,提供SQL生成模板

存储内容:

{
    "question": "查询上周销售额最高的产品",
    "sql": "SELECT `product_name`, SUM(`amount`) FROM `orders` 
            WHERE `order_date` >= date_trunc('week', current_date - interval '1' week)
            GROUP BY `product_name` ORDER BY SUM(`amount`) DESC LIMIT 1"
}

应用场景:

  • 用户问类似问题时,AI可以参考历史SQL

  • 学习用户常用的查询模式

  • 复用优化过的SQL模板

2.3 MCP工具支持

在 DataAgent上,用户可以配置MCP工具(暂未开放),支持 stdio 和 streamable_http 两种模式,此功能扩展了系统原有的功能边界,系统也实现了动态工具加载机制,根据用户请求动态加载相应的工具。

当前系统已内置邮件发送、网络搜索等常用的MCP Server,可以实现如下常用的场景:

分析报表自动发送邮件:

用户请求:
"生成本周销售报告并发送给销售总监"
​
智能体运作流程:
1. 生成销售统计SQL
2. 执行查询获取数据
3. 基于查询结果生成可视化图表;
4. 进行数据分析及报告撰写
5. 调用MCP SendEmail工具发送邮件
   - to: "sales_director@company.com"
   - subject: "本周销售报告"
   - body: [包含数据表格、图表和分析的完整报告]
​
结果:
✅ 邮件已成功发送给 sales_director@company.com
报告包含:
- 销售数据表格
- 趋势分析、关键洞察
- 可执行建议

行业趋势分析:

用户请求:
"分析最近三个月智能手机市场的趋势"
​
智能体运作流程:
1. 生成销售统计SQL
1. 查询内部销售数据
2. 调用GoogleSearch MCP工具
   - 搜索:"智能手机市场2025年趋势"
   - 获取行业报告、新闻、分析文章
3. 综合分析
   - 内部数据:我们的销售表现
   - 外部数据:行业整体趋势
4. 生成完整的市场分析报告
​
价值:
- 内外部数据结合
- 更全面的市场洞察
- 基于实时信息的决策

基于 MCP 也可以实现其他的应用场景:

数据源扩展:

  • 多数据库支持:通过MCP工具访问MySQL、PostgreSQL、MongoDB等

  • API数据集成:调用第三方API获取实时数据

  • 文件数据处理:处理Excel、CSV、JSON等格式的文件数据

  • 云服务集成:集成AWS、阿里云等云服务的数据接口

功能能力扩展

  • 高级分析工具:集成统计分析、高级预测等工具

  • 可视化增强:支持更多图表类型和交互式可视化

  • 报告生成:自动生成PDF、Word等格式的分析报告

  • 通知推送:支持短信、钉钉等多种通知方式

2.4 数据权限隔离

通常情况下,在做数据分析时按照不同的分析主题使用到的库表会是几张表或者几十张表,因此奇麟数仓DataAgent在使用前需要先基于有权限的库表根据数据分析主题构建一个数据主题,后续的数据分析都将在该数据主题中进行,这样做达到了用户+数据主题的数据权限隔离,该数据主题下的元数据、主题领域知识等向量化存储也是隔离的, 不会相互干扰。

三、应用场景示例

基于 DataAgent 的完善设计, 可以赋能很多的数据分析场景,这里举两个比较常用的场景。

场景一:智能数据问答与自助分析

用户角色:业务运营、市场人员、产品经理

问题:2024年1月1日发放的各类优惠券中,哪种券的领取率与使用率最高?

第一步:意图识别和需求分析,获取相关的数据来源,并规划任务计划

第二步:生成 SQL,根据用户需求和数据来源生成 SQL 语句(1 个或者多个)、

第三步:数据查询,执行引擎进行 SQL 查询,并格式化处理结果

第四步:数据可视化,基于查询结果选择合适的图表,以便直观的进行数据分析

最后:总结输出完整报告

另外,可以借助 MCP 扩展能力, 将报告发送给指定邮箱。

核心价值

  • 零门槛使用:不需要懂SQL,用自然语言就能查数据

  • 即时响应:30秒内得到专业分析结果

  • 智能推荐:主动推荐相关分析维度

场景二:数据探查与质量监控

用户角色:数据工程师、数据科学家

智能功能

  • 新数据源探查:自动分析数据分布、质量情况、异常模式

  • 数据质量监控:实时监控关键数据表的完整性、准确性

四、结语:拥抱数据智能的新时代

在数字化转型的关键时刻,数据已经成为企业最重要的战略资产。但传统的数据分析模式正在成为创新的桎梏,限制着企业释放数据价值的潜力。

DataAgent的出现,标志着数据分析领域的范式转变——从"专家驱动"向"AI赋能的全民数据分析"转变,从"被动查询"向"主动洞察"转变,从"技术门槛"向"零门槛使用"转变。

这不仅仅是一次技术升级,更是一场关于数据价值释放的革命。当每个业务人员都能像专家一样分析数据,当数据洞察能够实时驱动业务决策,当企业的数据智慧能够持续积累和传承——这就是DataAgent为您开启的数据智能新时代。

让我们一起告别"数据加班",拥抱智能高效的数据分析新体验!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐