文章摘要

人工智能大语言模型在生成内容时常出现"幻觉"现象,输出看似合理但实则错误的信息。本文探讨知识图谱如何通过提供结构化、语义丰富的数据来显著提升AI模型的准确性和可靠性,并介绍Wisecube的Pythia如何利用十亿级知识图谱实现实时幻觉检测,将LLM准确率提升高达300%。


一、AI幻觉问题:看似智能,实则危险

人工智能(AI)能在几秒钟内完成令人惊叹的任务——总结复杂数据或生成创意内容。然而,它也会"编造事实",这种现象被形象地称为"幻觉"(Hallucination)。幻觉是指AI模型对提示词输出看似符合逻辑但实际上不准确甚至荒谬的回应,这严重削弱了模型的可信度。

虽然这些幻觉有时令人发笑,但在医疗、金融和法律等专业领域可能产生严重后果。根据斯坦福大学RegLab的研究,AI对可验证法律问题产生幻觉的可能性高达69%至88%

1.1 大语言模型面临的核心挑战

最新研究揭示了大语言模型(LLMs)面临的多项挑战,特别是在准确性和性能一致性方面。一项研究发现,GPT-4仅在53.3%的案例中提供了完整答案。

根据Vectara的幻觉排行榜数据,即使是最流行的LLM——如GPT、Llama、Gemini和Claude——也会在2.5%至8.5%的时间内产生幻觉,某些模型的幻觉率甚至超过15%。

 

这些数据表明,仅仅依靠海量数据训练的LLM在处理需要精确性和可靠性的任务时存在根本性缺陷。


二、知识图谱:AI准确性的结构化解决方案

2.1 什么是知识图谱?

知识图谱是一种专门的数据结构,使用基于图的格式存储信息。它们在实体及其关系之间提供额外的语义信息,以机器可读且人类可理解的格式定义连接关系。这种方法显著改善了大语言模型等AI模型的性能。

知识图谱的核心优势在于其推理能力——它可以推断关系,从而在无需显式存储的情况下派生新信息。这使得知识图谱比传统数据库更加灵活和互联。

2.2 知识图谱在高级分析中的应用

知识图谱通过存储不同数据集之间链接方式的额外信息来增强高级分析能力。它们整合多样化数据源以揭示复杂关系。

实际应用案例:

  • 医疗领域

    :将患者记录与研究数据关联,可以揭示治疗相关性

  • 药物研发

    :建模生物实体之间的关系,使AI模型更容易预测药物相互作用


三、知识图谱如何显著提升LLM的准确性

根据DataWorld的研究,整合知识图谱可以将LLM准确率提高多达300%。这就是为什么越来越多来自学术界、数据库公司以及Gartner等行业分析公司的专家依赖知识图谱来提高LLM响应准确性。

3.1 通过实体关系提供上下文

知识图谱以结构化格式映射实体(如人物、地点、概念)及其关系,使LLM能够访问丰富的上下文信息。

案例示例:
在生物医学知识图谱中,"药物"可以与其治疗的"疾病"、靶向的"基因"以及相关的"临床试验"相关联。当LLM使用这些结构化关系时,能够基于对数据更深入、更具上下文的理解提供更准确的响应。

3.2 术语消歧

LLM面临的关键挑战之一是消除可能具有多重含义的术语的歧义。知识图谱通过将术语连接到特定实体和上下文来解决这个问题。

实例说明:
"安慰剂"(placebo)一词可能指糖丸或生理盐水注射。知识图谱通过将"安慰剂"链接到正确的上下文——无论是"临床试验中的糖丸"还是"临床试验中的生理盐水注射"——来澄清这一点,确保LLM提供清晰、明确的答案。

3.3 数据的语义丰富化

知识图谱通过添加意义层并将其链接到相关的结构化信息来丰富原始数据。

例如,临床试验数据库中的知识图谱可以连接研究人员、方法论和结果,使LLM能够更好地理解各种数据点之间的相关性和相互联系。这种语义丰富化增强了模型生成有意义的、数据驱动洞察的能力。

3.4 集中式知识确保无错误响应

LLM通常从可能包含过时或矛盾信息的海量数据集中提取内容。知识图谱提供单一、结构化、可靠的参考点——通常称为"单一真相来源"。

在医疗保健领域,知识图谱通过确保"症状"、"诊断"和"治疗"等术语定义明确且相互关联来保持一致性,有助于降低误解或错误的风险。

3.5 增强推理和推断能力

LLM有时在逻辑推理或从训练数据中不直接存在的信息进行推断方面存在困难。知识图谱通过提供实体之间的逻辑、结构化关系来填补这一空白。

推理示例:
如果LLM从知识图谱中了解到"阿司匹林"是"发烧"的治疗方法,而"头痛"是"发烧"的常见症状,它可以推断阿司匹林也可能有助于治疗头痛。这种逻辑推断能力大大增强了模型在做出准确预测方面的可靠性。

 

3.6 减少用户查询中的歧义

许多用户查询可能含糊或模糊,但知识图谱通过将术语链接到特定实体和关系来帮助LLM解决这些问题。

例如,"药物X的临床试验结果是什么?"这样的查询,当LLM引用包含试验详情、方法论和结果的知识图谱时,可以得到精确回答,确保响应准确且基于结构良好的数据。


四、大规模检测LLM幻觉的迫切需求

与传统软件问题相比,检测和解决AI中的幻觉更加困难。尽管定期对LLM输出进行人工评估和试错提示工程可以帮助识别和管理应用程序中的幻觉,但随着应用程序的扩展,这种方法既耗时又难以扩展。

4.1 现有检测方法的局限性

生成数据量的增长和对实时响应的需求使得检测幻觉变得困难。手动审查每个输出不切实际,而且人类专业知识水平的差异使该过程不一致。

在医疗保健和金融等高风险领域,不准确可能造成严重后果,仅依靠人工审查既缓慢又容易出错。

虽然存在旨在检测幻觉的自动化工具,但它们通常依赖于分析句子或短语来理解上下文和识别不准确之处。这种方法可能有效,但经常难以捕捉复杂细节或识别微妙的不一致和不准确。

由于对实体之间语义关系的理解有限,传统幻觉检测器在分析复杂或细微内容时往往力不从心。


五、Pythia:利用十亿级知识图谱提升AI准确性

Wisecube的Pythia提供了一种创新方式来解决AI中的一个重大问题:不可靠的信息。凭借独特的工具集,Pythia在增强AI准确性的同时显著减少大语言模型的错误。

 

5.1 知识三元组:构建更清晰的上下文

大多数AI系统通过审查完整的句子或短语来检测错误或"幻觉"。然而,这常常遗漏更小但更关键的细节。Pythia通过引入"知识三元组"更进一步,将AI生成的声明分解为结构化格式:<主语, 谓语, 宾语>

这种方法使AI更容易掌握实体之间的关系,从而产生更精确和具有上下文意识的响应。

实例:

  • 主语

    :Jake McCallister

  • 谓语

    :接受了

  • 宾语

    :COVID-19疫苗接种

Pythia的方法不只是关注"COVID-19疫苗接种"等关键词,而是捕获动作(接受了)和具体发生的事情(COVID-19疫苗接种)。这种细节水平对于确保AI准确性至关重要。

5.2 实时幻觉检测

LLM面临的最重大挑战之一是它们倾向于生成看似真实但事实上不正确的信息(幻觉)。Pythia通过其实时幻觉检测模块来解决这个问题,该模块立即识别并标记此类错误。

Pythia结合使用自然语言推理(NLI)大语言模型检查知识图谱验证,确保只有事实准确的信息通过系统。因此,组织可以检测误导性响应并确保AI生成输出的整体可信度。

5.3 语义数据转换以实现更好的上下文理解

Pythia将原始数据转换为资源描述框架(RDF)格式,使LLM能够以更有意义的方式解释数据。

这种转换捕获数据点之间的关系并在语义上构建它们,为LLM提供更深层次的上下文以理解和生成响应。通过将AI的洞察建立在语义数据模型上,Pythia增强了模型提供与现实世界事实一致的上下文丰富和准确输出的能力。

5.4 知识图谱:幕后的验证引擎

Pythia解决方案的核心是为高级事实核查构建的庞大知识图谱。通过访问数百万出版物和数十亿数据点,Pythia确保AI生成的声明与大量已验证信息进行事实核查。

 

Pythia通过实时映射关键事实之间的关系,帮助AI检测和避免虚假或误导性信息。它还通过将LLM输出与已验证数据交叉引用,帮助避免AI编造信息产生的错误或幻觉。这种事实验证在医疗保健等准确性不容妥协的领域尤其有益。

5.5 声明提取和分类

Pythia使用先进的声明提取和分类系统来保持事实准确性。此功能将LLM生成的响应与已建立的知识库进行比较,将声明分为四类:

  1. 蕴含(Entailment)

    :准确的声明

  2. 矛盾(Contradictions)

    :幻觉

  3. 缺失事实(Missing Facts)
  4. 中性声明(Neutral claims)

Pythia通过标记矛盾和缺失事实,为改进LLM输出提供了清晰的路径,帮助开发人员解决知识差距并消除不一致。

5.6 模式映射和关系捕获

LLM的准确性取决于它处理的数据以及它对不同数据点之间关系的理解程度。Pythia的模式映射弥合了各种数据源与标准化本体之间的差距,确保正确捕获数据集内的复杂关系。

对数据互联的这种更深入理解使LLM能够产生更准确的洞察,并提供与手头任务相关且可靠的结果。

5.7 持续监控和警报

LLM的准确性不仅关乎改进模型本身,还关乎在实时操作期间保持高标准。Pythia的持续监控跟踪LLM性能,收集指标并在检测到差异或异常时发出警报。

这些警报使操作员保持知情,允许在超过准确性阈值时立即采取行动,防止错误输出影响最终用户。

5.8 输入和输出验证

Pythia的输入和输出验证器通过验证用户提示和LLM响应增加了另一层准确性保证。输入验证器确保只有完整、相关和高质量的数据进入系统,防止"垃圾进、垃圾出"的场景。

同时,输出验证器评估AI响应的逻辑不一致性偏见胡言乱语有毒语言事实正确性,确保只交付高质量和可靠的输出。

5.9 任务特定的准确性指标

不同的任务需要不同的准确性标准。Pythia通过实施任务特定指标并根据声明与查询的相关性为其分配权重来增强LLM准确性。

这确保AI专注于为每个特定用例提供最相关和事实正确的信息,无论是生物医学问题还是金融分析。

5.10 自定义数据集集成

Pythia支持将自定义数据集集成到其管道中,使LLM能够针对领域特定知识进行微调。

无论是医疗保健、法律还是金融,自定义数据集集成都有助于确保AI的响应与行业特定事实和标准保持一致。

六、结论:知识图谱开启AI可信时代

将知识图谱集成到AI框架中,通过在数据源之间添加关键的验证和上下文层,增强了LLM的准确性。通过更强大的验证,组织可以显著减少错误并降低幻觉风险,从而实现更可靠、具有上下文意识的决策。

Pythia通过将LLM与十亿级知识图谱无缝集成,将这一概念推向了更高层次。通过知识三元组和实时监控等技术,Pythia不仅提升了AI的准确性,还确保输出既精确又具有上下文相关性。凭借其强大的验证引擎,Pythia能够实时检测和标记事实性错误,通过自然语言推理(NLI)、大语言模型检查和知识图谱验证的组合,确保只有事实准确的信息通过系统。

更重要的是,Pythia的持续监控和告警机制在实际运营中维护着高标准。系统跟踪LLM性能,收集指标并在检测到差异或异常时发出警报,使操作人员能够在准确性阈值被突破时立即采取行动,防止错误输出影响最终用户。同时,输入和输出验证器通过验证用户提示和LLM响应,为准确性保障增添了另一层防护,确保只有高质量和可靠的输出被交付。

这种多层次的验证和监控体系,标志着AI系统正在从"黑盒"模式向可信赖、可验证的方向演进。知识图谱不仅是技术创新,更是构建可信AI的基石,为各行业提供了一条通向精准、可靠人工智能应用的清晰路径。

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐