论文导读 | 基于图的大模型检索增强生成技术
大型语言模型(LLM)如GPT系列,凭借其在文本理解、问答系统和内容生成等广泛任务中的卓越表现,令自然语言处理社区为之惊叹。尽管成效显著,但这类模型常因处理知识密集型任务能力有限而备受诟病,特别是在面对需要领域专业知识的问题时。将LLM应用于专业领域仍面临三大根本挑战:知识局限性、推理复杂度和上下文敏感性。为了让LLM适应特定或私有领域,早期策略主要通过使用专业数据集对模型进行微调。这种方法通过在
从Navie LLM 到Graph Retrieval Augument Generation
大型语言模型(LLM)如GPT系列,凭借其在文本理解、问答系统和内容生成等广泛任务中的卓越表现,令自然语言处理社区为之惊叹。尽管成效显著,但这类模型常因处理知识密集型任务能力有限而备受诟病,特别是在面对需要领域专业知识的问题时。将LLM应用于专业领域仍面临三大根本挑战:知识局限性、推理复杂度和上下文敏感性。
为了让LLM适应特定或私有领域,早期策略主要通过使用专业数据集对模型进行微调。这种方法通过在固定预训练参数的基础上增加少量新参数来提升性能。然而,由于领域专用数据集与预训练语料库之间存在显著的分布差异,LLM在整合新知识时难以避免影响现有理解。特别是在新知识与既有信息冲突的情况下,通过监督微调获取的新知识可能导致模型产生新的幻觉,甚至出现严重的灾难性遗忘现象。
检索增强生成技术(RAG)为定制化领域LLM提供了极具潜力的解决方案。与传统需要重新训练LLM来整合更新的方法不同,RAG通过利用文本语料库中的外部知识来增强模型性能,无需修改其架构或参数。这种技术使LLM不仅能运用预训练知识,还能实时调取领域特定信息进行响应生成,从而提供更精准可靠的答案。基础版RAG系统包含三个核心步骤:知识准备、检索和整合。在知识准备阶段,外部文本语料会被拆分为易于管理的文本片段,并转换为向量表示以便高效索引。检索阶段中,当用户提交查询时,系统会通过关键词匹配或向量相似度度量来定位相关文本片段。整合阶段则将这些检索到的片段与原始查询相结合,生成更具信息量的响应。
RAG的出现为利用领域特定知识定制大模型提供了极具前景的方法。然而,尽管潜力巨大,RAG在实际应用中仍面临若干关键限制,这些限制显著影响了RAG增强型大模型的性能和实用性。主要挑战可归纳为:
- 复杂的查询理解难题:专业领域通常涉及复杂的术语和行业专用术语,需要精确的解释。
- 检索知识分散问题:领域概念通常分散在多个文档中,不同概念之间缺乏清晰的层级关系。
- LLM内在限制:LLM处理这些信息的能力受到其固定上下文窗口的限制。
- 效率与可扩展性:检索质量和准确性的下降会进一步制约其在广泛动态环境中的实际部署。
为解决这些局限性,图检索增强生成(GraphRAG)作为一种新兴范式应运而生,通过整合系统化的背景知识和增强的上下文推理能力来定制大型语言模型。基于图结构的应用,现有GraphRAG模型如下图所示可分为三类[1]:
- 知识型GraphRAG,以图结构作为知识载体。
- 索引型GraphRAG,利用图结构作为索引工具从语料库中检索相关原始文本。
- 混合型GraphRAG,融合知识型与索引型框架的优势,为复杂推理任务提供更先进的解决方案。

知识组织
论文[2]作为一种索引型GraphRAG的代表性方案,提出了一种名为GNN-Ret的创新检索方法,通过图神经网络(GNN)挖掘段落间的关联性来增强检索效果。具体而言,该方法首先通过连接结构相关或关键词相关的段落构建图结构,随后利用图神经网络(GNN)挖掘段落间关系以优化支持段落的检索效率。建图策略包括:在对文档进行分块时,记录段落的顺序,并将文档中物理相邻的段落进行连接;通过向语言模型发出指令来提取段落中的关键词,并将包含相同关键词的段落进行连接。由此,通过识别这些段落存在的关联性来提升检索效率。

为了解决有限的检索粒度问题(Chain/Tree/Graph-RAG通常使用固定的粒度)和限制关系问题(而知识图谱中的关系需要严格定义),论文[3]提出名为伪图检索增强生成(PG-RAG)的预检索框架,通过为LLM提供海量原始阅读材料,并鼓励其自主阅读以用个人语言记录事实信息,将LLM拟人化为学习者。由此产生的简明有序思维索引通过共同主题或互补事实相互关联,形成如下图所示的伪图数据库。

该伪图数据库的构架主要有以下三个步骤:
- 首先提取事实中心信息(FCI),将文本转化为松散结构的证据条目,并基于语义蕴含模型对FCI进行一致性检查。
- 将验证后的FCI及其机器翻译(MT)输入语言模型,生成思维导图。
- 在主题和事实层面进行知识融合,通过思维导图与思维导图之间主题的相似性和事实信息的相似性构建超级节点,以形成跨文档链接的伪图结构。

作为一种图索引数据检索和图附带知识建模的融合方法,论文[4]提出了一种专为医疗领域设计的新型图谱增强生成框架——MedGraphRAG,旨在提升LLM生成循证医学响应的能力,从而在处理私人医疗数据时增强安全性和可靠性。为拓展GraphRAG在医疗领域的应用能力,MedGraphRAG提出了独特的三元图构建技术和U检索技术。在图结构构建过程中,MedGraphRAG采用三重链接架构将用户文档与权威医疗资源及受控术语库相连接。检索流程中,MedGraphRAG提出U-Retrieval算法,该方案融合自上而下的精准检索与自下而上的响应优化机制,在全局语境感知与精准索引之间取得平衡。这种双重策略既实现了医疗信息检索,又确保了完整回答生成。如下图所示,该方法通过5个步骤构建出三层知识图谱结构:


通过该方法组织出的三层次知识图谱可以提供较为可靠的循证方案,以下是GraphRAG和MedGraphRAG的示例响应,其中包含抽象化图表。MedGraphRAG能提供更详细的解释,并结合证据进行更复杂的推理。

知识检索
知识检索过程遵循三个不同且连续的步骤,将原始图数据转换为可用的、具有上下文的知识:1) 查询/图预处理对于查询预处理,系统通过向量化或关键术语提取将输入问题转换为结构化表示。在图方面,预训练的语言模型将图元素(实体、关系和三元组)转换为密集向量表示。2) 匹配:语义相似性和结构关系3) 知识剪枝:应用一系列精炼操作,以整合和总结检索到的知识。
论文[5]提出一种名为“图上推理”(RoG)的创新方法,通过协同LLMs与知识图谱,实现可信且可解释的推理过程。具体而言,RoG提出了一种规划-检索-推理框架。该框架中,RoG首先基于知识图谱生成关系路径作为忠实的规划方案。随后利用这些规划方案从知识图谱中检索有效的推理路径,供语言模型进行忠实推理。整体流程如下图所示,分为三个核心步骤:
- 针对问题,RoG引导大型语言模型生成多个基于知识图谱的规划关系路径。
- RoG利用这些规划从知识图谱中提取推理路径。
- 基于提取的推理路径进行可信推理,并生成附带可解释说明的答案。图中橙色和红色矩形分别表示问题和答案中提及的实体。
GraphRAG的大部分研究通过从原始文本中提取知识图谱三元组,并结合思维链推理来实现。然而,这些提取的知识图谱三元组既不依赖于查询内容,也缺乏事实成立的上下文依据。要理解这种因缺乏上下文导致的歧义,可以考虑这个知识图谱三元组:{主语:“苹果”,关系:“价格上涨”,宾语:“10%”}。若没有额外上下文,很难判断“苹果”这个实体指的是水果还是公司。此外,结构化问答方法会将提取的知识图谱三元组和原始文本同时输入到大模型中,导致提示词显著冗长(见表3)并产生信息重复。研究[6]提出HOLMES方法,通过创建以查询为中心的上下文感知知识图谱,并将其作为大模型的唯一输入(即不输入原始文本),有效解决了这些问题。具体来说,该方法首先从非结构化文本中构建超关系知识图谱,既捕捉事实本身,又记录其存在的背景语境;然后利用知识框架对超关系知识图谱进行优化,通过编码解答查询所需的信息类型。这两个步骤共同为语言模型提供经过筛选的相关事实集合。如图下图所示,本文以HotpotQA数据集为例对进行了HOLMES案例分析。

上述检索框架大部分都是基于实体关系匹配或路径匹配进行一次迭代检索,这可能会导致模型对图结构的推理理解不足——在图上的逐步游走推理降级为简单的信息匹配。为了使知识图谱与大模型迭代式多轮交互,论文[7]提出了一种名为图式思维链(GRAPH-COT)的简洁高效框架。其核心思想是让语言模型通过逐步遍历图结构来获取关键信息,而非直接将整个子图作为上下文输入(如下图所示)。GRAPH-COT采用迭代框架设计,每次迭代对应图结构中的一个步骤。每个迭代包含三个子步骤:1)推理阶段:语言模型根据现有信息提出可得出的结论,并确定图中需要补充的信息;2)交互阶段:语言模型生成从图中获取信息所需的交互操作(如查找节点、检查邻接关系等);3)执行阶段:将交互步骤中的请求在图结构中执行并返回对应信息。通过这种方式,语言模型能够在图结构上进行链式推理,精准捕捉关键信息。该过程将持续迭代,直至语言模型在推理子步骤中得出最终答案。

知识整合
知识整合阶段专注于将从知识检索中获得的文档无缝合成为一个连贯的提示,同时设定适当的训练目标以实现优化。主要涉及到微调技术微调技术和上下文学习技术。为了直接利用图搜索检索的信息来增强开源大语言模型(LLM),微调提供了一种简单的整合解决方案,例如基于 LoRA 的调优;而上下文学习为知识整合提供了一种间接策略,大致可以分为两个步骤:提示格式选择和 LLM 响应优化。
这里的微调技术方法与传统的指令微调或监督学习微调相似,但目的不同——GraphRAG中对LLM的微调主要是为了让LLM能够理解图结构、生成知识图谱中相关推理路径或对LLM生成过程中附加知识图谱约束等。为了有效编码图结构信息以适应不同任务和领域同时使大型语言模型(LLMs)能够理解,,论文[8]推出了大型语言与图助理(LLaGA)这一创新框架,它能将丰富的图结构数据与大型语言模型强大的上下文感知能力和理解能力无缝整合。整体框架如下图所示。

具体来说,LLaGA将图数据重组为节点序列,形成层级优先遍历的邻居嵌入序列和多层子图特征嵌入,这避免了将结构信息转化为可能产生歧义的自然语言描述。这些序列通过语义编码器进行格式化处理,在保留图结构特征的同时,精准呈现每个核心节点周围的结构信息。值得注意的是,这种转换过程无需训练参数支持,确保原始结构完整性得以完整保留,无需额外提炼。随后,LLaGA通过MLP将节点表征转换至大模型可理解的标记嵌入空间,既有效降低大模型微调的高昂计算成本,又保持了其通用性。该投影模型通常需要在多个图数据集上进行多任务训练,涵盖节点分类、链接预测和节点描述等任务。这种训练方式使其能够从不同角度解读图数据,并具备同时处理多项任务的内在能力,从而提升实际应用价值,同时可能增强LLaGA在各类未知数据集和任务中的泛化能力。值得注意的是,与传统图神经网络中使用的多任务学习方法不同,LLaGA采用统一的问答格式训练所有任务,无需依赖特定任务的损失函数或任务头。
当前GRAG限制
虽然GraphRAG系统可以有效的解决多跳推理和知识密集型问题,但现有GraphRAG系统在知识质量、知识冲突等问题上有着关键的局限性。
1)知识质量:GraphRAG模型的效能从根本上取决于外部知识的质量,这需要开发复杂的知识工程机制。具体包括三大技术方向:(i)系统化知识组织、(ii)自动化质量优化、(iii)智能知识库扩展。首先,知识组织需要构建更具表现力的图结构,通过混合神经符号方法和高级嵌入技术,捕捉复杂的语义关联、时间动态及层级依赖关系。其次,知识优化需建立自动化质量保障框架,运用交叉验证、统计分析和机器学习技术来识别不一致项、消除冗余信息并验证事实准确性。第三,知识扩展对于提升GraphRAG系统的实际应用效果至关重要,这需要通过持续的知识更新与适应性调整来实现。知识扩展的实际应用通常结合多种方法:通过自动化网络爬虫获取公共信息更新、通过API与权威数据库对接、通过专家反馈循环进行验证,以及利用机器学习模型进行关系推断。这种多维度的综合方法既能确保知识增长的稳健可靠,又能保持数据质量与时效性。这些组件的无缝整合,依托可扩展的基础设施实现动态更新与版本控制,将成为构建适用于各类应用场景的GraphRAG系统的关键所在。
2)知识冲突:在GraphRAG模型中整合多源知识时,如何有效管理信息冲突并保持知识一致性成为重大挑战。因此,开发智能的知识协调、冲突解决和真相挖掘技术已成为研究重点。这些方法需要运用先进的算法,既能识别矛盾陈述、评估数据源可信度,又能基于现有证据和上下文信息确定最可能的准确信息。除了冲突解决外,确保外部知识与大模型生成结果之间的无缝衔接,同样是需要攻克的核心难题。要实现这种知识对齐,需要创新性的知识提炼、微调和跨模态整合方法,以协调结构化知识与大模型学习到的表征。引入不确定性建模和概率推理框架,为有效处理模糊或矛盾信息提供了新思路。通过将知识与置信度评分及概率分布相结合,GraphRAG系统能够做出更精细的决策,并生成准确反映整合知识内在不确定性的输出结果。这种综合运用冲突解决、对齐技术和不确定性建模的知识一致性方案,将成为开发更健壮可靠GraphRAG系统的关键,使其具备应对现实世界复杂信息的能力。
3)数据隐私:GraphRAG系统整合外部知识时,会引发关键的隐私问题,这需要复杂的技术解决方案和完善的治理框架。在知识整合与检索过程中,如何保护隐私成为重大挑战,必须采用先进的加密技术,包括安全多方计算、同态加密和差分隐私机制。这些技术使GraphRAG系统既能利用知识图谱中的敏感信息,又能为个人和机构提供严格的隐私保障。除了技术解决方案,建立全面的数据治理框架对于负责任地部署系统也至关重要。这类框架需要制定明确的访问控制标准、数据处理规范及伦理准则,既要与不断更新的隐私法规保持同步,又要确保系统实用价值。技术隐私保护与治理框架的双重定位,对于构建可信的GraphRAG系统至关重要。该系统需在知识获取便利性与隐私保护需求之间取得平衡,从而推动其在医疗健康、金融理财、个人信息管理等敏感领域实现更广泛的应用。
参考文献
[1] Zhang Q, Chen S, Bei Y, et al. A survey of graph retrieval-augmented generation for customized large language models[J]. arXiv preprint arXiv:2501.13958, 2025.
[2] Li Z, Guo Q, Shao J, et al. Graph neural network enhanced retrieval for question answering of large language models[C]//Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2025: 6612-6633.
[3] Liang X, Niu S, Zhang S, et al. Empowering large language models to set up a knowledge retrieval indexer via self-learning[J]. arXiv preprint arXiv:2405.16933, 2024.
[4] Wu J, Zhu J, Qi Y, et al. Medical graph rag: Towards safe medical large language model via graph retrieval-augmented generation[J]. arXiv preprint arXiv:2408.04187, 2024.
[5] Luo L, Li Y F, Haffari G, et al. Reasoning on graphs: Faithful and interpretable large language model reasoning[J]. arXiv preprint arXiv:2310.01061, 2023.
[6] Panda P, Agarwal A, Devaguptapu C, et al. HOLMES: Hyper-relational knowledge graphs for multi-hop question answering using LLMs[J]. arXiv preprint arXiv:2406.06027, 2024.
[7]Jin B, Xie C, Zhang J, et al. Graph chain-of-thought: Augmenting large language models by reasoning on graphs[J]. arXiv preprint arXiv:2404.07103, 2024.
[8] Chen R, Zhao T, Jaiswal A, et al. Llaga: Large language and graph assistant[J]. arXiv preprint arXiv:2402.08170, 2024.
更多推荐



所有评论(0)