注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列二百一十二

从“报表堆里扒数据”到“大模型对话秒出洞察”!大模型重塑BI:ChatBI如何破解中小企业“数据用不动”难题?

商业智能(BI)作为企业数据驱动决策的核心工具,历经十余年演进始终面临一个核心矛盾:数据价值与使用门槛的错配——传统BI需要专业技术人员搭建报表,自助BI要求业务人员懂数仓逻辑,直到大语言模型(LLMs)的爆发,才让“人人能用数据”的普惠化目标成为可能。

一、BI三阶段演进:从“技术驱动”到“用户中心”,大模型终结“数据孤岛”

BI的每一次迭代,本质都是对“如何让数据更易获取”的回应。从传统报表到智能ChatBI,三个阶段的技术突破与痛点博弈,直接指向了大模型的必要性。

1. 第一阶段:报表式BI(传统开发模式)——“慢、贵、僵”的代名词

这一阶段是BI的“手工时代”,核心逻辑是“业务提需求,技术做报表”,典型流程为瀑布式开发:业务部门提出明确需求(如“每日销售GMV简报”)→数据团队通过ETL工具从业务系统(如ERP、CRM)抽数→基于Hadoop/MPP架构搭建离线数仓清洗数据→用SQL计算指标、ECharts渲染静态报表。

其适用场景高度局限:仅能满足周期性固定需求(如周活跃报告)、高层管理驾驶舱(KPI看板)、合规披露(财务审计表)。但痛点也极为突出:

  • 开发成本高企:某电商平台数据显示,单个报表平均消耗3.5人日,需求交付周期超72小时,紧急需求根本无法响应;
  • 维护复杂度陡增:当企业指标数量超过200个,字段血缘管理成本呈指数级上升,改一个指标可能牵连数十张报表;
  • 交互能力缺失:静态报表无法下钻分析(如从“全国销量”钻取到“某城市某门店”),业务人员发现异常也只能重新提需求;
  • 资源浪费严重:某银行统计显示,60%的报表月访问量不足10次,却占用大量数仓存储与计算资源。

正如Gartner报告指出,2015年后这种模式在数字化转型企业中的采用率以每年12%的速度递减——它本质是“技术主导”,而非“业务主导”。

2. 第二阶段:自助式BI(敏捷分析时代)——“降门槛”但未“无门槛”

为解决报表式BI的僵化,自助式BI通过技术升级实现了“业务人员自主分析”,核心突破在于底层架构与交互设计

  • 技术上,列式存储数据库(ClickHouse/Druid)支撑实时查询,语义层技术(LookML)统一指标管理,WebGL渲染提升可视化性能;
  • 功能上,拖拽式字段映射(如Tableau的“Show Me”)、智能图表推荐、无代码数据准备(Alteryx式管道)成为标配。

商业化层面,SaaS模式让自助BI快速普及:Power BI每用户月费9.9美元,2023年营收突破50亿美元;Snowflake与Sigma Computing合作推出零售业专属分析套件,进一步降低行业落地成本。

但自助式BI仍未解决“普惠化”难题:

  • 知识门槛仍在:业务人员需掌握星型/雪花模型等数仓理论,某调研显示68%的用户无法自主完成事实表与维度表关联;
  • 数据治理风险:某制造企业曾因错误配置指标(如将“订单量”误设为“支付量”),导致生产计划调整失误,损失超千万元;
  • 复杂需求仍依赖IT:如用户分群RFM分析、跨数据集关联等,仍需技术人员预计算,响应延迟可达1-2天。

IDC研究虽显示,采用自助BI的企业数据分析效率提升4倍,但仅覆盖23%的潜在业务用户——“自助”不等于“易用”,仍有大量中小企业因人员能力不足被挡在数据门外

3. 第三阶段:智能式BI(AI驱动范式)——大模型让“对话即分析”成为现实

当LLMs技术与BI结合,智能式BI终于突破“懂技术才能用数据”的瓶颈,核心变革集中在两大方向:

(1)自然语言交互:从“写SQL”到“说需求”
  • NL2SQL技术落地:用户说“显示华东区高净值客户复购率”,系统可自动转换为Spark SQL,无需手动编写;
  • 语义纠错能力:面对模糊需求(如“最近卖得好的商品”),DeepSeek等大模型可自动补全条件(如“近7天销量TOP100且环比增长>20%的商品”),避免因需求模糊导致的分析偏差。
(2)智能洞察:从“看数据”到“得结论”
  • 自动异常检测:通过Prophet算法实时识别GMV、客流量等指标的异常波动,无需人工盯屏;
  • 根因分析:用Shapley值量化各因素对指标的影响(如“某门店销量下降30%,60%源于周边竞品促销”);
  • 预测推演:LSTM模型生成未来12周销售趋势,辅助库存备货决策。

商业化案例已验证其价值:Salesforce Einstein Analytics通过AI洞察将销售机会转化率提升37%;阿里云Quick BI智能版将归因分析模型的实施周期从2周压缩至2小时。更关键的是“普惠化”突破——某县域农商行的客户经理,无需任何技术背景,通过语音输入就能完成贷后风险分析;双11期间,零售企业可通过对话式调控实时大屏,快速调整促销策略。

二、ChatBI落地场景:三大核心需求,解决中小企业“数据用不动”痛点

中小企业是数据驱动的“弱势群体”——缺乏专业数据团队,业务人员(如销售人员、客服)是数据使用的主力,但他们往往不懂技术。东尔科技基于这一现状,将ChatBI的落地场景聚焦于“解决实际业务问题”,而非炫技式功能。

1. 数据解读、总结与预测:把“数字表格”变成“业务报告”

中小企业的业务人员常面临“看着数据不知道说什么”的困境:拿到一张“某产品近30天销量表”,需手动计算环比、对比大盘、分析趋势,耗时且易出错。

SuperChatBI的解决方案是结构化数据→文本报告的自动转化:系统先基于预设的业务规则(如“销量环比波动超15%需重点说明”“对比同品类平均增速”)组装数据集,再通过大模型的归纳总结能力,生成符合业务逻辑的文本报告。

例如,针对某销售人员关注的“欧汶(员工名)本周新增客户数据”,系统不仅会输出“新增客户28人,环比上周增长12%”,还会自动关联“客户所属行业(制造业占比60%)”“转化为订单的比例(18%,高于团队平均10%)”“未转化客户的主要原因(需求暂不明确占70%)”,并给出“建议3日内跟进未转化客户,重点挖掘制造业需求”的行动建议。

这种模式的核心价值是降低“数据解读门槛” ——业务人员无需掌握数据分析方法,只需接收系统生成的“结论+建议”,直接用于业务决策。

2. 数据智能可视化:从“找模板”到“说需求,出图表”

自助式BI的“拖拽配置”对中小企业业务人员仍有门槛:需理解“指标(如销售额)”与“维度(如地区)”的区别,还要在数十个模板中找到适配场景的图表(如用折线图看趋势,用饼图看占比),操作繁琐且易选错。

SuperChatBI的突破在于**“RAG+LLM”驱动的模板智能匹配**:

  • 前期将所有报表模板进行标注(如“地区销售额对比→条形图”“客户行业分布→饼图”“销量趋势→折线图”)并向量化存储;
  • 用户只需描述需求(如“展示上周各销售小组的业绩对比”),系统通过语义检索快速匹配最优模板,自动生成可视化图表;
  • 支持高度自定义:用户可直接说“把条形图换成柱状图,颜色用公司VI色”,系统实时调整,无需手动修改配置。

目前,SuperChatBI已覆盖中小企业高频分析场景所需的图表类型,包括条形图、多元条形图、柱状图、饼图、词云等,并支持拓展雷达图、漏斗图(如客户转化漏斗)等复杂图表,满足销售、营销、客服等多岗位需求。

3. 对话式数据查询:从“学SQL”到“聊数据”

对中小企业而言,“不会写SQL”是使用数据的最大障碍——即使是简单的“查询华东区第一季度业绩最好的5名员工”,也需要技术人员编写SQL,响应周期可能长达1天。

ChatBI的核心功能正是自然语言与数据的直接交互:用户以日常对话的方式输入需求(如“昨天入库多少个客户?”“上周团队打了多少通电话?”),系统快速解析需求、生成查询指令、返回结果,整个过程无需超过3秒。

例如,某CRM系统用户想了解“上周渠道部的业绩数据”(默认报表是“本周直销部”),无需手动修改“时间”“部门”等过滤条件,只需说“切换到上周渠道部”,系统会自动调整查询参数并更新数据。这种“零操作成本”的交互,让销售人员能随时查询数据,无需依赖技术团队。

三、核心技术方案:Text2SQL vs Text2DSL,东尔为何选择后者?

ChatBI的核心是“将自然语言转化为可执行的查询指令”,行业主流方案有两种:Text2SQL(自然语言→SQL)和Text2DSL(自然语言→领域特定语言)。东尔科技通过大量测试,最终选择Text2DSL作为SuperChatBI的核心方案,背后是对中小企业场景的深度适配。

1. 两种方案的核心逻辑与对比

我们以“查询华东区第一季度业绩表现最好的5名员工”为例,拆解两种方案的差异:

对比维度 Text2SQL方案 Text2DSL方案
核心逻辑 直接将自然语言转化为标准SQL语句 先将自然语言转化为DSL(业务参数),再将DSL转化为SQL
转换结果示例 SELECT user_name, SUM(amount) as total_amount FROM user_sales_performance WHERE department = ‘华东地区’ AND date >= ‘2024-01-01’ AND date <= ‘2024-03-31’ GROUP BY user_name ORDER by total_amount LIMIT 5; 时间=‘第一季度’、部门=‘华东地区’、指标=‘销售额’、维度=‘员工名称’、排序=‘降序’、数据量=5
依赖条件 需要大模型掌握数据库结构(表名、字段、关联关系)、SQL语法、方言差异 需要企业有成熟的指标体系(预设“销售额”“第一季度”等业务定义)
优势 灵活性高,支持自定义查询(如非预设指标) 准确性高、响应快、无需暴露底层数据库结构
劣势 1. 需输入大量元数据(表结构、字段含义),Prompt冗长;2. 跨表查询易出错;3. 响应时间长(超3秒影响体验) 1. 依赖预设指标体系,无法支持未定义的自定义查询;2. 需前期搭建业务抽象层

2. 东尔选择Text2DSL的关键原因:适配中小企业“跨数据集查询”痛点

中小企业的数据源往往分散(如CRM系统中,“通话次数”存在于“客服记录表”,“订单成交量”存在于“销售订单表”),且很少有资源搭建“大宽表”(将多表数据整合为一张表),因此“跨数据集查询”是高频需求。

Text2SQL在这类场景下存在致命缺陷:若要查询“某员工上周的通话次数与订单成交量”,需将“客服记录表”与“销售订单表”关联,大模型需掌握两张表的字段含义、关联键(如“员工ID”)、数据格式,这需要在Prompt中嵌入大量元数据,导致两个问题:

  • 准确性下降:元数据过多时,大模型易混淆字段(如将“客服记录表”的“员工ID”与“销售订单表”的“客户ID”搞混);
  • 响应延迟:Prompt越长,大模型处理时间越久,某测试显示跨3表查询时响应时间达5.8秒,远超用户可接受的3秒阈值。

而Text2DSL通过“业务抽象层”完美解决这一问题:

  • 前期由东尔团队协助企业搭建指标体系,将“通话次数”“订单成交量”定义为标准化指标,并预设“跨指标关联规则”(如“员工ID”为统一关联键);
  • 用户查询时,大模型只需识别“指标、维度、过滤条件”等业务参数(如“员工=张三、时间=上周、指标=通话次数+订单成交量”),无需关注底层表结构;
  • 系统再根据预设规则,将DSL参数自动转换为跨表SQL,避免大模型直接处理复杂关联逻辑。

这种“业务-数据解耦”的设计,既保证了查询准确性(DSL参数基于预设规则,无歧义),又提升了响应速度(Prompt仅包含业务参数,长度减少60%),恰好适配中小企业“数据分散但查询需求明确”的特点。

3. 适用场景边界:没有“最优方案”,只有“最适配方案”

东尔科技并非否定Text2SQL,而是认为两种方案需匹配不同场景:

  • Text2SQL适合:平台级BI工具(如面向多个企业的SaaS BI)、无固定指标体系的场景(如数据探索性分析),核心诉求是“灵活”;
  • Text2DSL适合:企业内部系统(如CRM专属BI)、垂直业务软件(如零售门店分析工具),核心诉求是“准确、高效、低门槛”,尤其是中小企业——它们的业务场景相对固定,搭建一套成熟的指标体系成本低,却能极大提升数据使用效率。

四、SuperChatBI实现思路:四步流程+意图识别,破解“答非所问”难题

确定技术方案后,东尔科技围绕“中小企业业务人员友好”这一核心,设计了SuperChatBI的完整实现流程,并针对初期遇到的“非结构化回答”问题,补充了意图识别机制,让系统既能“查数据”,又能“懂业务”。

1. 背景:中小企业的特殊痛点,决定产品设计方向

SuperChatBI的核心用户是中小企业的业务人员(尤其是销售人员),他们的痛点直接决定了产品设计:

  • 知识门槛痛点:不懂“指标”“维度”等抽象概念,如分不清“销售额(指标)”与“销售地区(维度)”,无法自主配置报表;
  • 操作效率痛点:数据获取链路过长,如默认报表是“本周直销部”,若要查“上周渠道部”,需依次找到“时间过滤条件”“部门过滤条件”,手动修改,耗时且易操作失误。

因此,SuperChatBI的设计原则是“屏蔽技术细节,只暴露业务语言”——用户无需知道“SQL”“表关联”,只需用日常工作语言描述需求即可。

2. 核心流程:四步走,实现“从提问到洞察”的闭环

SuperChatBI的核心流程分为四个环节,每个环节都围绕“准确性”和“低门槛”设计:

(1)知识召回:RAG技术,精准匹配业务知识
  • 技术原理:采用检索增强生成(RAG)技术,前期将企业的指标体系、业务规则(如“第一季度=1-3月”“华东区包含上海、江苏、浙江”)、报表模板等信息向量化,存入知识库;
  • 召回逻辑:用户提问后,系统先提取需求的语义向量(如“华东区第一季度业绩”的向量包含“地区=华东”“时间=Q1”“指标=业绩”),再与知识库向量进行相似度匹配,召回相关的业务知识(如“业绩=销售额总和”“华东区省份列表”);
  • 优势:避免大模型“ hallucination(幻觉)”,如用户说“华东区”,系统不会将“安徽”纳入(若企业定义华东不含安徽),确保业务逻辑准确。
(2)关键信息提取:动态Prompt+多轮交互,补全需求
  • 动态Prompt:系统根据召回的业务知识,自动生成Prompt模板,引导大模型提取关键信息(指标、维度、过滤条件、排序规则等),如针对“华东区业绩”,Prompt会提示“请确认时间范围(如第一季度/3月)、业绩指标(如销售额/订单量)、需展示的维度(如员工/产品)”;
  • 多轮交互:若用户需求模糊(如“最近业绩好的员工”),系统会主动提问补全信息:“请问‘最近’是指近7天、近30天?‘业绩好’是指销售额最高还是订单量最高?”;
  • 结果输出:最终提取出结构化的DSL参数,如“时间=近7天、指标=销售额、维度=员工、排序=降序、TopN=5”,并进行语义验证(如检查“近7天”是否在数据时间范围内)。
(3)SQL转换:权限控制+语法优化,确保安全高效
  • 参数校验:对DSL参数进行合法性校验,如“员工名称=欧汶”需确认该员工存在于企业CRM系统中,“时间=2024年2月30日”会提示日期无效;
  • 权限控制:采用RBAC(基于角色的访问控制)模型,如销售人员只能查询自己负责的客户数据,管理者可查询团队数据,避免数据泄露;
  • SQL生成与优化:根据预设的DSL-SQL映射规则,将参数转换为标准SQL,并优化执行计划(如添加索引、减少冗余字段),确保查询效率,中小企业数据量下响应时间控制在1-2秒。
(4)数据可视化:自动匹配+交互调整,提升可读性
  • 自动图表推荐:根据指标类型匹配图表,如“销售额对比”用条形图,“客户行业分布”用饼图,“销量趋势”用折线图;
  • 交互式操作:用户可直接对话调整图表,如“把这个饼图换成环形图”“添加‘去年同期’数据对比”,系统实时更新;
  • 数据导出:支持导出Excel表格、PDF报告,方便业务人员在会议中使用。

3. 关键补充:意图识别,解决“答非所问”难题

初期测试中,SuperChatBI遇到一个问题:能精准回答“结构化查询”(如“昨天入库多少客户”),但对“非结构化需求”(如“总结欧汶本周新增客户的转化情况”)回答生硬——仅输出“新增客户28人,转化18%”,缺乏业务解读,让用户感觉“答非所问”。

东尔科技的解决方案是加入“意图识别”环节,成为流程的“前置过滤器”:

  • 第一步:意图分类:大模型先识别用户需求类型——是“简单数据查询”(如“查数量”),还是“业务分析需求”(如“总结转化情况”);
  • 第二步:差异化处理
    • 若为“简单查询”:直接执行上述四步流程,返回数据+基础图表;
    • 若为“业务分析”:先执行四步流程获取数据(如新增客户数、转化数、未转化原因),再重新组装Prompt(包含数据+业务背景,如“欧汶是销售一部员工,本周团队平均转化率10%”),调用大模型进行语义分析,生成包含“数据结论+业务影响+行动建议”的完整报告。

例如,对“总结欧汶本周新增客户的转化情况”,系统最终会输出:
“欧汶本周新增客户28人,转化为订单5人,转化率18%,高于团队平均(10%)40%,表现优秀。从客户维度看,制造业客户占比60%(转化3人,转化率50%),服务业客户占比40%(转化2人,转化率25%),说明其在制造业客户开发上优势明显。未转化的23人中,70%因“需求暂不明确”,建议3日内跟进,重点挖掘制造业客户的潜在需求,可结合近期推出的制造业专属套餐推荐。”

这种处理方式,让系统从“数据查询工具”升级为“业务分析助手”,真正理解中小企业业务人员的核心需求。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐