数据与AI的10个预测 (2026)

我认为大多数企业数据和AI团队都可以同意,2025年并没有按计划进行。

将AI部署到生产环境很困难。损益影响很低(用"灾难"来形容可能更准确)。

再加上执行层缺乏AI素养以及模型层面的性能提升放缓,2025年底更以AI的失望而非AI部署为特征(我正看着你,MIT报告)。

虽然标题可能集中在最新的模型发布或基准测试战争,但对于任何使用这些技术的人来说,很明显,更好的模型远非2026年最具变革性的发展。

真正的变化正在前线展开——在这里,数据科学家、数据工程师、治理领导者以及各种AI/ML团队正在为生产环境构建这些复杂的系统。而阻止2025年AI广泛成功的逆风将成为2026年推动市场的因素。

因此,考虑到这一点,这是我对2026年数据与AI的前十大预测——以及它们对AI下一个时代的意义。

1、数据与AI领导者将崛起

如果你最近在LinkedIn上待过,你可能已经注意到你新闻源中数据与AI头衔的可疑增长——甚至在你自己的团队成员中。

不,不是有什么重组你不知道。

虽然这主要是在传统上归类为数据或AI/ML专业人员中的自愿变化,但这种头衔的转变反映了我几乎讨论了2年的现实——数据和AI不再是两个独立的学科。如果组织希望看到AI在任何层面取得成功,他们需要停止这样对待它们。

从他们所需的资源和技能到他们解决的问题,数据和AI是同一枚硬币的两面。这一现实将对2026年团队和技术的演变方式产生可证明的影响。

2、AI就绪数据将成为2026年最大的话题

今年你会听到很多"基础"这个词。而对于2026年的企业成功来说,没有比AI就绪数据更关键的基础了。

在AI一切泡沫的开始时,LinkedIn的推销员会让你相信,每个拥有心中一首歌和ChatGPT订阅的企业都可以用AI强行获得价值。但现在在2026年初——就在这个旅程开始2年后——那些说客却变得可疑地安静了。

这是因为AI只会对驱动它的第一方数据有用。组织可能在去年忽视了它——但这只是时间问题,账单到期了。

团队今天问的大问题:

  • 代理实际上需要什么数据?
  • 我如何使其对AI有用?
  • 我如何有效地治理它?
  • 我如何知道它对生产环境值得信赖?
    要做到这一点,我们需要超越传统的数据质量概念,建立工具、标准和流程,以改善最终将为我们AI提供数据的数据管道的健康和性能。2024年, Gartner 表示,到2026年,60%的市场将采用数据可观测性。现在是2026年,交付可信、受治理和语义丰富的数据的需求从未如此迫切(做得好,Gartner)。

看,AI就绪数据并不性感。它不会提供炫目的演示或引人注目的标题。它是基本的数据管理。它是一个成本中心。这正是为什么高管们长期以来忽视它的原因。但在95%的AI失败率面前,确保你的数据是受治理、可信和语义丰富的不仅仅是一个好的举措——它是一个生存优先事项。

我预测的一个AI预测是,AI就绪数据投资将在2026年超过代理开发投资。基础是数据与AI团队的下一个(也是之前的?)前沿。数据质量项目将演变为针对AI就绪数据项目,AI开发预算将大量偏向于工具和流程而非开发。你可以指望这一点。

3、团队将优先考虑生产力而非试点

钟摆正在摆动。AI显然在2025年存在价值问题,责任(至少部分)归咎于制定计划的执行团队。

“我们仍然有很多人相信AI是魔法,不需要任何思考就会做你想让它做的事情。”

这是我在去年晚些时候听到的一个真实引语,它反映了数据与AI团队的一个普遍经历:

  • 一位AI素养较低的高管设定优先级
  • 项目未能提供价值
  • 试点被废弃
  • 循环重复
    公司在2025年在AI试点上花费了数十亿美元,但对其AI将如何产生影响的地点或方式没有明确理解——这不仅对性能,而且对整体AI热情都产生了可证明的影响。这将对进入下一年产生真正的后果。

不,我不相信AI投资会消失——我对这一点有强烈的信念——但我确实相信这些投资将变得更加有意。一时兴起启动随机试点的日子已经在后视镜中——而在2026年,交付可衡量的价值将是第一、第二和第三优先级。那些获得新预算的用例将包括真正的商业案例、真正的ROI,以及支持它的基础设施和运营严谨性。

我认为提供有意义(且可衡量)生产力提升的工具将是看到最多关注的领域。为正确的问题选择正确的工具——无论是开箱即用的代理还是普通的老式仪表板。

显然,这本该是2025年的趋势……但你知道他们怎么说,有时候我们必须先掉进坑里才能跑。

4、代理可观测性将成为AI部署的不可协商条件

消费者不会使用他们不信任的东西。而事实是,今天的大多数代理都不是很值得信赖。

输出本质上是不确定的。管道穿越系统与团队,监督有限。即使是数据、嵌入、提示或模型中的最小问题也可能导致系统行为的急剧变化。

传统系统工程教我们验证输入、测试逻辑和监控输出。然而在AI中,这种纪律经常消失,取而代之的是以模型为中心的工具和断开的指标。地面上的现实是,大多数被宽松定义为"AI可观测性"的现成解决方案只处理问题的一个子集。它们可以告诉你输出何时出错,但它们不知道它发生在何处或为什么。正如数据与AI头衔的出现所表明的那样,数据和AI是一个系统——如果我们想使它们可靠(更不用说被采用),我们需要能够管理它们。这意味着采用提供对输入和输出可见性的解决方案。

更清楚地说,数据领导者不应该追逐内部指标,如模型置信度分数或提示格式,而应该将可靠性建立在系统边界上:

  • 输入:为AI系统提供的数据、上下文、检索结果和服务
  • 输出:AI产生的响应、推荐、决策和行动
    就像数据可观测性对于可扩展的数据可靠性变得必不可少一样,我预测像代理可观测性这样的解决方案(它们统一代理生命周期中的可观测性工作流)将在2026年及以后对于代理部署变得必不可少。

5、AI治理将成形

不受治理的AI不仅仅是可靠性风险——它是财务、声誉以及介于两者之间的一切风险。一个好的AI就绪治理策略至少应该解决这5个问题:

  • 我们可以使用什么数据?
  • 在什么情况下?
  • 与它相关的风险是什么?
  • 我们是否有正确的文档知道数据来自哪里?
  • 我们是否有正确的访问控制来防止不应该访问数据的人访问数据?
  • AI可以和不可以自动化什么?AI不应该自动化什么?
    AI的问题不仅仅是输入,也是输出。人们不会使用他们不信任的东西。随着批准的AI失败和针对性的提示攻击的增加,企业不能继续投资于他们无法监管、验证并最终执行的东西。

问题是AI的发展速度超过了围绕它的标准。我认为2026年将看到更多标准化AI治理框架的形成和采用。

6、非结构化数据将成为一等公民

如果实用主义是本季度的基调,激活新生数据集就像容易摘到的果实一样。

大多数AI应用已经依赖非结构化数据——如电子邮件、文档、图像、音频文件和支持票——来提供使AI响应有用的丰富上下文。

但是虽然团队可以使用既定工具监控结构化数据,但非结构化数据长期以来一直在盲区中运作。传统数据质量监控无法像跟踪数据库表那样处理文本文件、图像或文档。

展望未来,非结构化数据监控将与传统数据质量检查一样标准化。组织实施全面的质量框架,将所有数据——结构化和非结构化——视为需要主动监控和治理的关键资产。

这是实用的。这是有用的。这是2026年。

7、ML模型的复仇

考虑到我之前的预测,这感觉有点不言而喻,但我认为值得明确说明。

目前领域中的一个信息是,LLM很强大……但它们被用来做ML已经做得很好的事情。随着团队优先考虑用例而非技术偏好,ML已经准备好再次辉煌回归。

LLM令人难以置信。我喜欢LLM。但LLM很昂贵,它们的输出是不确定的,并且它们比传统数据产品更难以验证的几个数量级。这意味着如果你不需要使用LLM……好吧,你可能不应该。

有些事情你只能用LLM做——情感分析、相关性评分等。我认为LLM将在2026年因为这些用例而更加闪耀。但你不应该用火箭筒去读书。进入2026年,我不认为有那么多团队计划这样做。

LLM能做什么,这是不可否认的。一个好的AI团队的标志是什么?知道它们应该做什么。就像2020年代的JNCO牛仔裤一样,ML模型又重新流行起来了。如果我看到更多的LinkedIn头衔一夜之间转变以拥有它,我不会感到惊讶。

8、上下文工程将成为核心学科

AI模型的输入成本大约比输出大300-400倍。如果你的上下文数据被不完整的元数据、未剥离的HTML或空向量数组等问题束缚,你的团队将在规模处理时面临巨大的成本超支。

更重要的是,困惑或不完整的上下文也是一个主要的AI可靠性问题,模棱两可的产品名称和糟糕的分块混淆检索器,而提示或模型的微小变化可能导致截然不同的输出。

难怪上下文工程已成为2025年中期数据与AI团队最时髦的流行词。上下文工程是为AI模型准备、优化和维护上下文数据的系统过程。掌握上游上下文监控——确保可靠的语料库和嵌入在它们进入昂贵的处理作业之前——的团队将从他们的AI模型看到更好的结果。

9、企业团队将选择简单性而非性能

AI模型托管环境正围绕两个明确的赢家整合:Databricks和AWS Bedrock。这两个平台都成功地将AI能力直接嵌入到现有的数据基础设施中,而不是要求团队学习全新的系统。

Databricks通过模型训练、部署和数据处理之间的紧密集成获胜。团队可以在数据所在的对一平台上微调模型,消除了在系统之间移动数据的复杂性。同时,AWS Bedrock通过广度与企业级安全获胜,提供来自Anthropic、Meta等的多个基础模型的访问,同时保持严格的数据治理和合规标准。

是什么导致其他落后?碎片化和复杂性。需要大量自定义集成工作或强迫团队采用全新工具链的平台正输给适合现有工作流的解决方案。

团队正在根据操作简单性和数据集成能力而不是原始模型性能来选择AI平台。赢家明白,如果部署和维护可靠太复杂,最好的模型也是无用的。阻力最小的路径将在2026年加冕。

10、对话式BI将很热门——但它需要温度检查

说到驱动价值的程序——数据民主化已经以某种形式流行了近十年,对话式BI只是那个故事的最新一章。

对话式BI和之前的所有其他BI工具之间的区别在于,它承诺甚至对最非技术领域的用户以速度和优雅实现那个乌托邦式愿景。

前提很简单:如果你可以要求它,你就可以访问它。对于所有者和用户来说,这是双赢……理论上。挑战(与所有民主化努力一样)不是工具本身——而是你正在民主化的东西的可靠性。

但同样,这一切都取决于数据是否准备好进行如此多的访问。唯一比糟糕的洞察更糟糕的是快速交付糟糕的洞察。将聊天界面连接到不受治理的数据库,你不仅会加速访问——你会加速后果。

11、结束语

AI的未来始于你的数据——但以ROI结束。

如果过多的炒作是燃料,糟糕的数据就是点燃引信的火柴。在2026年初,GenAI很可能会作为Gartner评论的任何技术趋势中最快进入谷底而载入史册。

但这里有一个事实——这本质上不是一件坏事。只有当领导者不知道如何调整方向时,这才是一件坏事。记住,炒作周期不是衡量技术价值的指标。它只是市场关于该技术的期望是否现实的指标。

好消息是,当一个市场最终确实度过了炒作,我们往往会以对如何交付有意义价值的更好理解而出现在另一边。我认为2026年是我们出现在另一边的那一年。

是的,决策将更加谨慎。支出将更加深思熟虑。但在年底,我相信更多企业团队将出现一个有意义的AI部署,建立在真实、安全和可信的数据基础上。这是一个值得庆祝的年底。

如果2025年是派对有点失控的一年,2026年是我们从中成长的一年。所有这些成熟让我对2027年感到非常兴奋。


原文链接:数据与AI的10个预测 (2026) - 汇智网

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐