大模型环境下的企业级语境图谱Context Graphs：Palantir 本体论之争的误区，一场价值万亿美元的对话

本文深入探讨了AI代理时代的语境图谱构建问题，指出当前"预定义本体vs学习本体"的二元对立存在根本性误区。作者Kirk Marple基于三年实践经验，提出第三条路径：采用现有成熟本体标准（如Schema.org、微软CDM），在此基础上扩展学习。文章系统梳理了被行业忽视的二十年本体工程积累，为企业级AI系统建设提供了务实的技术路线。

xianggll

767人浏览 · 2026-01-28 16:09:10

xianggll · 2026-01-28 16:09:10 发布

文章摘要

Palantir 全网最强资源合集(持续更新）：从底层架构到语义数字孪生，14 篇重磅文献带你读透 AI 数据王者

本体论与知识图谱：揭示语义技术的核心差异

大模型重塑本体工程和知识图谱构建综述：从静态规则驱动到动态生成范式的革命性演进

引言：一场价值万亿美元的对话

过去两周，关于"语境图谱"（Context Graphs）的讨论在AI技术圈引发了前所未有的热潮。Foundation Capital发表的《语境图谱：AI的万亿美元机遇》打响了第一枪，Animesh Koratana关于坐标系统的技术深度分析进一步推进了这场讨论，而Daniel Davis发布的《语境图谱宣言》则将这一概念与语义网的历史传承紧密相连。

这场对话触及了AI代理时代最核心的问题：

如何赋予AI代理组织记忆？
如何捕获决策轨迹？
如何构建能从实际工作流程中学习的系统？

这些都是正确且关键的问题。但Kirk Marple——一位在语境基础设施领域深耕三年的资深从业者——指出，当前讨论中出现了一个根本性的误区：一个将复杂问题过度简化的"虚假二元对立"。

虚假的二元对立：预定义vs学习

当前的讨论已经固化为一个二选一的选择题：预定义本体（Prescribed Ontologies）还是学习本体（Learned Ontologies）？

第一阵营：Palantir模式

这一阵营的论点是：Palantir凭借预定义本体构建了一家市值超过4000亿美元的公司。其核心方法是：

前期定义模式（Schema）
：在项目启动时就确定完整的数据结构
数据映射
：将混乱的企业数据映射到预定义的模式中
前线工程师部署
：为每个客户定制化实施

这种方法确实有效，但问题也很明显：成本高昂、实施缓慢、难以规模化。

第二阵营：学习本体的未来

另一方则描绘了一个全新的愿景：

自然涌现的结构
：从实际工作流程中自然产生，而非事先设计
代理轨迹作为训练数据
：AI代理的行为路径成为学习素材
决策痕迹编译
：将决策过程编译成组织级的世界模型
发现而非声明
：本体不是被定义出来的，而是被发现的

正如Jaya Gupta最近所写："下一家500亿美元的公司将建立在学习本体之上。这种结构从工作实际发生的方式中涌现，而非从你设计它应该发生的方式中产生……记忆假设你知道要存储什么以及如何检索。但最有价值的语境，是那些直到代理通过使用才发现的结构。"

问题的核心：被忽视的二十年积累

这种框架的最大问题在于：它完全忽略了过去二十年已经存在的本体工程成果。

讨论进行得仿佛本体论只有两个选项：要么是昂贵的定制化产物（Palantir模式），要么是通过足够多的代理运行自然涌现的属性（学习愿景）。但实际上，还有大量生产级的本体工程工作，而这两个阵营都没有充分认识到。

第三条道路：采用、扩展、聚焦学习

在"预定义vs学习"的二元对立之外，有一条被严重低估的第三条路径：

采用已有标准 → 按需扩展 → 将学习聚焦在真正新颖的领域

这不是妥协，而是工程智慧。让我们看看那些已经存在、经过验证、可以直接使用的本体标准。

那些已经存在的本体标准

在讨论如何学习本体之前，我们有必要认识到，大量本体工程工作已经在生产系统中运行多年。

1. Schema.org：互联网的通用词汇表

Schema.org是什么？

Schema.org是一个面向网络结构化数据的协作词汇表，由Google、Microsoft、Yahoo和Yandex于2011年联合创立。它为重要实体定义了规范类型：

Person（人）
：姓名、职位、所属组织
Organization（组织）
：名称、位置、员工
Place（地点）
：地址、地理坐标、开放时间
Event（事件）
：开始时间、结束时间、地点、组织者
Product（产品）
：名称、品牌、价格、评分
CreativeWork（创意作品）
：作者、发布日期、许可协议
以及数百个其他类型

这不是理论，而是生产实践。

当你在Google搜索结果中看到丰富的片段——活动日期、产品价格、食谱评分——这些都是Schema.org标记被解析和展示的结果。数十亿网页正在使用这套标准。

类型定义清晰且完整：

一个Person有name（姓名）、jobTitle（职位）、worksFor（关联到Organization）
一个Organization有name、location、employees
一个Event有startDate、endDate、location、organizer

这不是需要从零构建的定制本体。它已经存在、持续维护、并且正是为语境图谱所需的实体建模而设计的。

2. WAND与微软通用数据模型（CDM）

这里有一个令人惊讶的事实：微软的通用数据模型（Common Data Model）——驱动Dynamics 365、Power Platform以及微软大部分企业技术栈的模式——是从WAND授权而来的。

WAND的历史与影响：

WAND数十年来一直在构建企业分类法和本体。他们的工作比当前的AI浪潮早了很多年。当微软需要企业实体的规范数据模型时——账户（Account）、联系人（Contact）、潜在客户（Lead）、商机（Opportunity）、案例（Case）、产品（Product）、营销活动（Campaign）——他们没有从头开始构建，而是从已经完成这项工作的团队那里获得授权。

CDM定义了企业软件运作的实体。 不是理论上的——而是在成千上万运行微软商业应用的组织中的生产实践。

3. 行业特定标准

除了Schema.org和CDM之外，还有经过多年实际使用而精炼的行业特定本体：

医疗健康领域：

FHIR（Fast Healthcare Interoperability Resources）
：用于临床数据交换
SNOMED（系统化医学术语）
：用于医学术语标准化

金融领域：

FIBO（Financial Industry Business Ontology）
：用于金融工具和商业实体

制造、物流、能源等：
每个领域都有其特定的标准

这些不是学术练习，而是生产基础设施。 例如，FHIR定义了如何表示患者、病情、药物、观察结果和临床工作流程。

Palantir真正做的是什么？

Daniel Davis提出了一个重要观察：

"我不明白为什么每个人都认为Palantir拥有本体技术。他们没有。他们花费数月甚至数年时间，用'前线部署工程师'来构建它。这不是大规模实现语境图谱的方式。"

这一点值得深入解读。

Palantir的高成本并不是因为"预定义本体很难"。而是因为他们为每次部署构建定制化方案。他们不是利用现有标准——而是为每个客户的特定数据环境创建定制模型。

这是一种商业模式选择，而非预定义本体的固有属性。 你完全可以：

采用Schema.org类型
用CDM模式扩展
添加领域特定实体

而无需花费数年时间进行定制建模。

Palantir的方法之所以昂贵，是因为它本质上是包装成平台的定制咨询服务。 预定义本体本身并不是瓶颈，瓶颈在于拒绝利用已经存在的成果。

学习本体真正有价值的地方

既然有这么多现成的本体标准，学习本体还有意义吗？答案是：绝对有，但要聚焦在正确的地方。

启动问题（The Bootstrap Problem）

这是一个关键挑战：如何在还没有足够数据的情况下开始学习？

传统方法的困境：

学习需要数据
但在系统刚启动时，数据还不存在
如果等待数据积累，系统无法立即提供价值

解决方案：

从现有本体标准开始
：使用Schema.org、CDM等作为基础
在实际使用中扩展
：捕获那些标准模型未覆盖的特定领域知识
持续优化
：基于使用模式调整和精炼

这样既能立即提供价值，又能持续学习改进。

真正未解决的问题

学习本体应该聚焦在三个关键领域：

1. 时间有效性（Temporal Validity）

挑战： 事实会随时间变化，但大多数知识图谱只存储"当前"状态。

需要学习的：

实体属性在何时发生变化
关系的生命周期
决策的时间依赖性

示例：

某人在2020年是CEO，但2023年已经不是
某产品的价格策略在不同时期的演变
组织结构的历史变迁

2. 决策轨迹（Decision Traces）

挑战： 捕获"为什么做这个决策"比记录"做了什么决策"更有价值。

需要学习的：

决策的上下文因素
考虑过的替代方案
决策背后的推理过程
决策结果的反馈循环

这是真正新颖的领域。 Schema.org不会告诉你如何建模决策轨迹，因为这是代理系统特有的需求。

3. 事实解析（Fact Resolution）

挑战： 当不同来源提供冲突信息时，如何确定真相？

需要学习的：

来源可信度权重
时间新近性的价值
上下文相关性
交叉验证模式

示例场景：

公司年报显示的员工数vs LinkedIn显示的员工数
官方新闻稿vs社交媒体传言
内部文档vs公开信息

这需要复杂的概率推理，是学习本体真正应该发力的地方。

为什么这对构建者至关重要

语义网终于赢了

有一个讽刺的现实：语义网（Semantic Web）的愿景在其最初倡导者退场后，反而实现了。

历史回顾：

2000年代初，Tim Berners-Lee等人推动语义网
当时被认为过于复杂、不切实际
RDF、OWL等技术被嘲笑为学术玩具

现实证明：

Schema.org现在驱动着数十亿网页的结构化数据
知识图谱是Google、Microsoft、Amazon的核心基础设施
企业正在大规模采用图数据库和本体模型

语义网的理念是对的，只是时机早了15年。 现在，AI代理的崛起让这些技术找到了真正的应用场景。

构建者的三个原则

基于以上分析，Kirk Marple提出了语境图谱构建者应遵循的三个核心原则：

原则1：从现有标准开始

不要重新发明轮子。

人、组织、地点？使用Schema.org
企业实体？采用微软CDM
医疗数据？FHIR已经定义好了
金融工具？FIBO提供了完整模型

好处：

立即可用，无需等待学习
经过验证，避免常见陷阱
互操作性，便于集成其他系统

原则2：在边界扩展

标准模型覆盖了80%，专注于剩下的20%。

当你遇到标准未覆盖的领域时：

首先确认真的没有
：可能只是你没找到
评估是否真的需要
：不是所有特殊性都需要建模
以标准方式扩展
：继承现有类型，保持一致性

示例：

Schema.org有"Person"，你可以扩展为"TechnicalAdvisor"
CDM有"Account"，你可以添加行业特定属性

原则3：将学习聚焦在真正新颖的地方

时间、决策、解析——这些才是学习的战场。

不要浪费机器学习资源去学习"人应该有名字"这种常识。把学习能力用在：

时间维度
：如何捕获变化和演进
决策逻辑
：如何理解"为什么"
冲突解决
：如何处理矛盾信息
使用模式
：如何从行为中发现隐含结构

这些是Schema.org和CDM无法提供的，需要从实际使用中学习。

结论：务实的道路

语境图谱不是一个需要在"预定义"和"学习"之间做出选择的问题。真正的答案是混合方法：

采用已验证的标准
：Schema.org、CDM、行业特定本体
智能扩展
：在标准边界之外添加领域知识
聚焦学习
：将AI能力用在时间、决策、解析等真正困难的问题上

Palantir的成功不是预定义本体的胜利，而是深度定制咨询的胜利。 下一代系统不需要每次都从零开始，而应该站在巨人的肩膀上，利用二十年本体工程的积累成果。这不是在"预定义"和"学习"之间妥协，而是认识到它们各自的优势领域：

预定义标准解决了90%的常见问题

学习方法处理那10%的独特挑战

两者结合才能构建真正智能的系统

最终，语境图谱的价值不在于选择哪种本体论立场，而在于能否快速为AI代理提供有用的组织记忆。采用、扩展、学习——这才是通往万亿美元机遇的务实路径。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

打通数据变现“最后一公里”：基于逻辑数据架构构建面向 AI 的资产化服务层

2048 AI社区

CSS属性对重绘与重排的影响深度解析

2048 AI社区

Gen_AI 补充内容 RAG

RAG（检索增强生成）技术通过结合检索系统与大语言模型，构建了一个高效的知识问答系统。其核心流程包括知识库预处理、相关段落检索、提示增强和最终答案生成。系统采用混合检索策略，同时使用BM25稀疏检索和神经网络稠密检索，通过倒数排名融合方法取长补短。在分块优化方面，需平衡分块大小与重叠区域，推荐采用语义分块和元数据增强策略。RAG技术能有效减少模型幻觉，支持动态知识更新，同时保护数据隐私，是提升大模