图片

文章摘要

本文深入探讨了AI代理时代的语境图谱构建问题,指出当前"预定义本体vs学习本体"的二元对立存在根本性误区。作者Kirk Marple基于三年实践经验,提出第三条路径:采用现有成熟本体标准(如Schema.org、微软CDM),在此基础上扩展学习。文章系统梳理了被行业忽视的二十年本体工程积累,为企业级AI系统建设提供了务实的技术路线。

Palantir 全网最强资源合集(持续更新):从底层架构到语义数字孪生,14 篇重磅文献带你读透 AI 数据王者

本体论与知识图谱:揭示语义技术的核心差异

大模型重塑本体工程和知识图谱构建综述:从静态规则驱动到动态生成范式的革命性演进


引言:一场价值万亿美元的对话

过去两周,关于"语境图谱"(Context Graphs)的讨论在AI技术圈引发了前所未有的热潮。Foundation Capital发表的《语境图谱:AI的万亿美元机遇》打响了第一枪,Animesh Koratana关于坐标系统的技术深度分析进一步推进了这场讨论,而Daniel Davis发布的《语境图谱宣言》则将这一概念与语义网的历史传承紧密相连。

这场对话触及了AI代理时代最核心的问题:

  • 如何赋予AI代理组织记忆?
  • 如何捕获决策轨迹?
  • 如何构建能从实际工作流程中学习的系统?

这些都是正确且关键的问题。但Kirk Marple——一位在语境基础设施领域深耕三年的资深从业者——指出,当前讨论中出现了一个根本性的误区:一个将复杂问题过度简化的"虚假二元对立"。


虚假的二元对立:预定义vs学习

当前的讨论已经固化为一个二选一的选择题:预定义本体(Prescribed Ontologies)还是学习本体(Learned Ontologies)?

第一阵营:Palantir模式

这一阵营的论点是:Palantir凭借预定义本体构建了一家市值超过4000亿美元的公司。其核心方法是:

  • 前期定义模式(Schema)

    :在项目启动时就确定完整的数据结构

  • 数据映射

    :将混乱的企业数据映射到预定义的模式中

  • 前线工程师部署

    :为每个客户定制化实施

这种方法确实有效,但问题也很明显:成本高昂、实施缓慢、难以规模化

第二阵营:学习本体的未来

另一方则描绘了一个全新的愿景:

  • 自然涌现的结构

    :从实际工作流程中自然产生,而非事先设计

  • 代理轨迹作为训练数据

    :AI代理的行为路径成为学习素材

  • 决策痕迹编译

    :将决策过程编译成组织级的世界模型

  • 发现而非声明

    :本体不是被定义出来的,而是被发现的

正如Jaya Gupta最近所写:"下一家500亿美元的公司将建立在学习本体之上。这种结构从工作实际发生的方式中涌现,而非从你设计它应该发生的方式中产生……记忆假设你知道要存储什么以及如何检索。但最有价值的语境,是那些直到代理通过使用才发现的结构。"

问题的核心:被忽视的二十年积累

这种框架的最大问题在于:它完全忽略了过去二十年已经存在的本体工程成果。

讨论进行得仿佛本体论只有两个选项:要么是昂贵的定制化产物(Palantir模式),要么是通过足够多的代理运行自然涌现的属性(学习愿景)。但实际上,还有大量生产级的本体工程工作,而这两个阵营都没有充分认识到。


第三条道路:采用、扩展、聚焦学习

在"预定义vs学习"的二元对立之外,有一条被严重低估的第三条路径:

采用已有标准 → 按需扩展 → 将学习聚焦在真正新颖的领域

这不是妥协,而是工程智慧。让我们看看那些已经存在、经过验证、可以直接使用的本体标准。


那些已经存在的本体标准

在讨论如何学习本体之前,我们有必要认识到,大量本体工程工作已经在生产系统中运行多年。

1. Schema.org:互联网的通用词汇表

Schema.org是什么?

Schema.org是一个面向网络结构化数据的协作词汇表,由Google、Microsoft、Yahoo和Yandex于2011年联合创立。它为重要实体定义了规范类型:

  • Person(人)

    :姓名、职位、所属组织

  • Organization(组织)

    :名称、位置、员工

  • Place(地点)

    :地址、地理坐标、开放时间

  • Event(事件)

    :开始时间、结束时间、地点、组织者

  • Product(产品)

    :名称、品牌、价格、评分

  • CreativeWork(创意作品)

    :作者、发布日期、许可协议

  • 以及数百个其他类型

这不是理论,而是生产实践。

当你在Google搜索结果中看到丰富的片段——活动日期、产品价格、食谱评分——这些都是Schema.org标记被解析和展示的结果。数十亿网页正在使用这套标准。

类型定义清晰且完整:

  • 一个Person有name(姓名)、jobTitle(职位)、worksFor(关联到Organization)

  • 一个Organization有name、location、employees

  • 一个Event有startDate、endDate、location、organizer

这不是需要从零构建的定制本体。它已经存在、持续维护、并且正是为语境图谱所需的实体建模而设计的。

2. WAND与微软通用数据模型(CDM)

这里有一个令人惊讶的事实:微软的通用数据模型(Common Data Model)——驱动Dynamics 365、Power Platform以及微软大部分企业技术栈的模式——是从WAND授权而来的。

WAND的历史与影响:

WAND数十年来一直在构建企业分类法和本体。他们的工作比当前的AI浪潮早了很多年。当微软需要企业实体的规范数据模型时——账户(Account)、联系人(Contact)、潜在客户(Lead)、商机(Opportunity)、案例(Case)、产品(Product)、营销活动(Campaign)——他们没有从头开始构建,而是从已经完成这项工作的团队那里获得授权。

CDM定义了企业软件运作的实体。 不是理论上的——而是在成千上万运行微软商业应用的组织中的生产实践。

3. 行业特定标准

除了Schema.org和CDM之外,还有经过多年实际使用而精炼的行业特定本体:

医疗健康领域:

  • FHIR(Fast Healthcare Interoperability Resources)

    :用于临床数据交换

  • SNOMED(系统化医学术语)

    :用于医学术语标准化

金融领域:

  • FIBO(Financial Industry Business Ontology)

    :用于金融工具和商业实体

制造、物流、能源等:
每个领域都有其特定的标准

这些不是学术练习,而是生产基础设施。 例如,FHIR定义了如何表示患者、病情、药物、观察结果和临床工作流程。

Palantir真正做的是什么?

Daniel Davis提出了一个重要观察:

"我不明白为什么每个人都认为Palantir拥有本体技术。他们没有。他们花费数月甚至数年时间,用'前线部署工程师'来构建它。这不是大规模实现语境图谱的方式。"

这一点值得深入解读。

Palantir的高成本并不是因为"预定义本体很难"。而是因为他们为每次部署构建定制化方案。他们不是利用现有标准——而是为每个客户的特定数据环境创建定制模型。

这是一种商业模式选择,而非预定义本体的固有属性。 你完全可以:

  1. 采用Schema.org类型

  2. 用CDM模式扩展

  3. 添加领域特定实体

而无需花费数年时间进行定制建模。

Palantir的方法之所以昂贵,是因为它本质上是包装成平台的定制咨询服务。 预定义本体本身并不是瓶颈,瓶颈在于拒绝利用已经存在的成果。


学习本体真正有价值的地方

既然有这么多现成的本体标准,学习本体还有意义吗?答案是:绝对有,但要聚焦在正确的地方。

启动问题(The Bootstrap Problem)

这是一个关键挑战:如何在还没有足够数据的情况下开始学习?

传统方法的困境:

  • 学习需要数据

  • 但在系统刚启动时,数据还不存在

  • 如果等待数据积累,系统无法立即提供价值

解决方案:

  1. 从现有本体标准开始

    :使用Schema.org、CDM等作为基础

  2. 在实际使用中扩展

    :捕获那些标准模型未覆盖的特定领域知识

  3. 持续优化

    :基于使用模式调整和精炼

这样既能立即提供价值,又能持续学习改进。

真正未解决的问题

学习本体应该聚焦在三个关键领域:

1. 时间有效性(Temporal Validity)

挑战: 事实会随时间变化,但大多数知识图谱只存储"当前"状态。

需要学习的:

  • 实体属性在何时发生变化

  • 关系的生命周期

  • 决策的时间依赖性

示例:

  • 某人在2020年是CEO,但2023年已经不是

  • 某产品的价格策略在不同时期的演变

  • 组织结构的历史变迁

2. 决策轨迹(Decision Traces)

挑战: 捕获"为什么做这个决策"比记录"做了什么决策"更有价值。

需要学习的:

  • 决策的上下文因素

  • 考虑过的替代方案

  • 决策背后的推理过程

  • 决策结果的反馈循环

这是真正新颖的领域。 Schema.org不会告诉你如何建模决策轨迹,因为这是代理系统特有的需求。

3. 事实解析(Fact Resolution)

挑战: 当不同来源提供冲突信息时,如何确定真相?

需要学习的:

  • 来源可信度权重

  • 时间新近性的价值

  • 上下文相关性

  • 交叉验证模式

示例场景:

  • 公司年报显示的员工数vs LinkedIn显示的员工数

  • 官方新闻稿vs社交媒体传言

  • 内部文档vs公开信息

这需要复杂的概率推理,是学习本体真正应该发力的地方。

为什么这对构建者至关重要

语义网终于赢了

有一个讽刺的现实:语义网(Semantic Web)的愿景在其最初倡导者退场后,反而实现了。

历史回顾:

  • 2000年代初,Tim Berners-Lee等人推动语义网

  • 当时被认为过于复杂、不切实际

  • RDF、OWL等技术被嘲笑为学术玩具

现实证明:

  • Schema.org现在驱动着数十亿网页的结构化数据

  • 知识图谱是Google、Microsoft、Amazon的核心基础设施

  • 企业正在大规模采用图数据库和本体模型

语义网的理念是对的,只是时机早了15年。 现在,AI代理的崛起让这些技术找到了真正的应用场景。

构建者的三个原则

基于以上分析,Kirk Marple提出了语境图谱构建者应遵循的三个核心原则:

原则1:从现有标准开始

不要重新发明轮子。

  • 人、组织、地点?使用Schema.org

  • 企业实体?采用微软CDM

  • 医疗数据?FHIR已经定义好了

  • 金融工具?FIBO提供了完整模型

好处:

  • 立即可用,无需等待学习

  • 经过验证,避免常见陷阱

  • 互操作性,便于集成其他系统

原则2:在边界扩展

标准模型覆盖了80%,专注于剩下的20%。

当你遇到标准未覆盖的领域时:

  1. 首先确认真的没有

    :可能只是你没找到

  2. 评估是否真的需要

    :不是所有特殊性都需要建模

  3. 以标准方式扩展

    :继承现有类型,保持一致性

示例:

  • Schema.org有"Person",你可以扩展为"TechnicalAdvisor"

  • CDM有"Account",你可以添加行业特定属性

原则3:将学习聚焦在真正新颖的地方

时间、决策、解析——这些才是学习的战场。

不要浪费机器学习资源去学习"人应该有名字"这种常识。把学习能力用在:

  • 时间维度

    :如何捕获变化和演进

  • 决策逻辑

    :如何理解"为什么"

  • 冲突解决

    :如何处理矛盾信息

  • 使用模式

    :如何从行为中发现隐含结构

这些是Schema.org和CDM无法提供的,需要从实际使用中学习。

结论:务实的道路

语境图谱不是一个需要在"预定义"和"学习"之间做出选择的问题。真正的答案是混合方法:

  1. 采用已验证的标准

    :Schema.org、CDM、行业特定本体

  2. 智能扩展

    :在标准边界之外添加领域知识

  3. 聚焦学习

    :将AI能力用在时间、决策、解析等真正困难的问题上

Palantir的成功不是预定义本体的胜利,而是深度定制咨询的胜利。 下一代系统不需要每次都从零开始,而应该站在巨人的肩膀上,利用二十年本体工程的积累成果。这不是在"预定义"和"学习"之间妥协,而是认识到它们各自的优势领域:

预定义标准解决了90%的常见问题

学习方法处理那10%的独特挑战

两者结合才能构建真正智能的系统

最终,语境图谱的价值不在于选择哪种本体论立场,而在于能否快速为AI代理提供有用的组织记忆。 采用、扩展、学习——这才是通往万亿美元机遇的务实路径。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐