KARMA 利用多智能体进行知识图谱扩展
总结智能体(Summarizer Agents,SA)将阅读智能体得到的文本片段进行总结,以减少计算开销。ujLLM∗summsjP∗summujLLM∗summsjP∗summ其中,用于提示大型语言模型保留关键实体、关系和特定于领域的术语。这种总结确保实体提取智能体和关系提取智能体接收高信号和低噪声的文本输入。
KARMA是一种基于大语言模型的多智能体框架,通过9个专业化智能体协作完成知识图谱扩展任务。该框架采用多智能体架构实现交叉验证和冲突解决,通过领域自适应提示策略处理不同领域的专业术语和逻辑,并采用模块化设计确保可扩展性。实验证明,KARMA能有效从非结构化文本中提取高质量知识,显著提升知识图谱的精度和可扩展性,相比单智能体方法有明显优势。
Introduction
知识图谱(Knowledge Graphs,KGs)对于构建和推理跨不同领域的复杂信息至关重要。然而科学文献的爆炸式增长(每年超700万篇)对领域知识图谱的维护提出了前所未有的挑战。
在具有复杂、专业术语的特定领域,例如医疗、金融和自治系统等,维护领域知识图谱会更加困难。传统知识图谱构建方法包括人工标注管理,虽然可靠,但是在大规模数据上却难以维系。基于传统自然语言处理(Natural Language Processing,NLP)的自动化构建方法常常难以处理科技文献中特定领域的术语和依赖于上下文的关系。此外,将知识提取和集成到现有的知识库中需要鲁棒的机制来实现模式对齐、一致性和冲突解决。在高风险的应用程序中,这些系统中的不准确性的成本可能非常高。
大语言模型(Large Language Models,LLMs)的最新进展在语境理解和推理方面取得了显著进步。在这些进步的基础上,研究界越来越多地探索多智能体系统,其中几个专门的智能体协同工作以解决复杂的任务。这些系统利用单智能体的优势,每个智能体都针对特定的子任务进行了优化,并支持跨代理验证和输出的迭代改进。这种多智能体框架在从决策到结构化数据提取等领域显示出前景,通过冗余和协作提供鲁棒性。
本文提出了KARMA方法,一种新的多智能体框架,它通过一个多智能体协作系统使用LLM。每个智能体专注于KG扩展任务流水线中的不同任务。本文的框架提供了三个关键创新:
- 多智能体架构,使用9个专业化智能体分工协作(如实体抽取、模式对齐、冲突消解等)。采用交叉验证机制,例如,关系抽取智能体(REA)与模式对齐智能体(SAA)协作验证实体合法性。通过 LLM 辩论机制解决逻辑矛盾(如药物疗效冲突)。提高了提取知识的可靠性。例如,关系提取代理根据模式一致性输出验证候选实体,而冲突解决代理通过基于LLM的辩论机制解决矛盾。
- 领域自适应提示策略,允许系统在处理特定上下文的同时保持准确性,能够适应不同领域的术语和逻辑(如代谢组学中的酶促反应与基因调控网络)。
- 模块化设计,确保了可扩展性,并支持新实体或关系出现时的动态更新。
通过对来自三个不同领域的数据集进行概念验证实验,实验表明KARMA可以有效地从非结构化文本中提取高质量的知识,以精度和可扩展性极大地丰富现有的知识图谱。
Related Work
Knowledge Graph Construction 知识图谱构建
传统方法主要分为三类:基于规则与模板的方法、基于监督学习的神经模型和弱监督与远程监督方法。第一类方法(如WordNet的语义规则、Hearst Patterns模板)依赖人工设计规则,在封闭领域(如医学术语标准化)中精度高、可解释性强,但其召回率低、领域迁移成本高,难以覆盖复杂语义关系(如基因调控中的间接因果)。第二类方法以BioBERT、SciBERT等预训练模型为代表,通过微调实现命名实体识别和关系抽取,虽能利用大规模语料学习领域特征,但严重依赖标注数据(生物医学领域每类关系需3k-5k样本),且仅能识别预定义关系类型,无法适应开放域中的新兴模式(如COVID-19突变蛋白与宿主细胞的关系)。第三类方法(如基于Wikidata对齐的远程监督)通过知识库对齐或共现统计生成弱监督信号,减少了人工标注需求,但标注噪声敏感(如药物副作用误标为治疗作用),且模式固化,难以发现未预定义的关系。
基于LLM的方法可进一步细分为单步生成式知识抽取、检索增强生成(RAG)和迭代式精炼方法。单步生成(如直接提示GPT-4生成三元组)支持开放模式学习,但存在严重幻觉问题(如虚构蛋白质相互作用)和模式不一致性(如“基因X促进/抑制疾病Y”的矛盾),且长文本处理效率低。RAG方法(如结合BM25检索器)通过检索相关文档增强生成过程,减少幻觉,但受限于检索质量(如漏检最新预印本证据)和领域适应性不足(生物医学需专用术语库MeSH)。迭代式精炼方法(如Chain-of-Thought多轮推理)通过反馈循环提升逻辑一致性,但因多次调用LLM导致计算成本高,且缺乏与知识图谱现有模式的结构化验证。
Multi-Agent Systems 多智能体系统
多智能体系统(Multi-Agent Systems, MAS)通过分工协作机制解决复杂任务,近年来在NLP领域崭露头角。然而,将其应用于KG扩展面临独特挑战:领域知识深度需求:生物医学等领域涉及高度专业化的术语和逻辑(如基因调控网络中的条件性因果),通用智能体难以理解;结构化验证缺失:知识图谱要求实体关系的全局一致性(如避免环路、冗余边),而现有系统缺乏针对图结构的冲突检测机制;动态扩展需求:科学发现快速迭代(如新病毒变种的发现),系统需支持灵活添加新模块或调整关系模式。
现有系统分为通用框架与领域专用系统两类。通用框架(如AutoGen、MetaGPT)通过预定义角色(程序员、测试员)分解任务并交叉验证(如代码逻辑冲突检测),但缺乏生物医学领域适配性(无法处理嵌套实体缩写)和知识图谱兼容性(未与Wikidata类型约束对齐)。领域专用系统(如ChemCrow、BioAgent)通过嵌入领域规则(如ChemCrow使用RDKit验证化学反应)提升任务完成率,但依赖硬编码逻辑导致灵活性不足(难以适应CRISPR新变种)且扩展性差(新增模块需重构通信协议)。
本文所提出的KARMA采用了领域优化的多智能体架构:
- 专业化分工:设置9个核心智能体,包括实体抽取(NEA识别嵌套实体)、关系抽取(REA标注置信度)、模式对齐(SAA验证Wikida类型)、冲突消解(CRA启动LLM辩论)和领域适配(DAA动态调整提示词),并通过协作流程(如NEA识别“STAT3”与“乳腺癌”,REA提取“促进转移”关系,SAA验证实体类型,CRA裁决冲突结论)实现“生成-验证-修正”闭环。
- 领域自适应机制:动态提示策略根据子领域特征调整模板(如基因组学强调“基因-表型-敲除实验”逻辑链,药物毒理学关联“化学结构-代谢酶-副作用”),并注入压缩知识库(如ChEMBL化合物库)辅助决策。
- 结构化验证流水线:分语法层(过滤非标准缩写)、逻辑层(检测因果矛盾)和图谱层(禁止环路)三级冲突检测,采用证据加权(临床三期试验优先)和溯源回溯(关联原文人工审核)策略消解冲突。
- 模块化扩展:支持插件式架构(新智能体通过API接入)和动态模式更新(如发现“病毒-宿主蛋白互作”关系时自动扩展模式库)。
Methodology
问题规约 Problem Formulation
设表示现有的知识图谱,为实体集合,为关系集合,由有向边表示。每个关系都由一个三元组表示,记为,其中头尾实体满足关系,而表示关系种类。假设有一系列的非结构文本,本文的目标是从任意一篇文本中自动抽取新的三元组,三元组满足关系,并将其添加到现有知识图谱中,得到增强知识图谱。满足:
其中,是从中得到的有效三元组。为了保持一致性和准确度,每一个候选三元组在添加前都会经过验证。
系统概览 System Overview
智能体名称 | 核心功能 |
---|---|
Central Controller Agent (CCA) | 任务调度与资源分配,通过LLM评分函数动态优化任务优先级,平衡探索与利用策略。 |
Ingestion Agents (IA) | 文档获取与格式标准化,处理OCR错误/结构异构问题。 |
Reader Agents (RA) | 文本分段与相关性过滤,基于领域知识阈值δ剔除低价值段落。 |
Summarizer Agents (SA) | 领域特异性摘要生成,保留关键实体关系,降低下游处理噪声。 |
Entity Extraction Agents (EEA) | 实体识别与标准化,通过BERT嵌入空间对齐实现本体映射。 |
Relationship Agents (REA) | 多标签关系推断,支持"抑制/引发"等复杂共现关系的概率判别。 |
Schema Alignment Agents (SAA) | 模式一致性校验,对未匹配实体/关系进行类型归类或标记为新类型。 |
Conflict Resolution Agents (CRA) | 矛盾检测与消解,通过LLM辩论机制解决知识冲突。 |
Evaluator Agents (EA) | 多维质量评估,综合置信度/清晰度/相关性得分决定知识融合。 |
中央控制智能体 Central Controller Agent
中央控制智能体(Central Controller Agent,CCA)是 KARMA 框架的核心调度模块,采用双层优化机制实现动态任务调度与资源协调。其任务优先级决策建立在语言模型的语义理解与强化学习探索策略的融合上,通过基础效用函数 量化任务 在当前系统状态 下的潜在价值。为平衡已知高回报任务与新任务探索的博弈,CCA 引入多臂老虎机策略,在效用值中叠加探索项:
其中控制探索强度,t 为全局任务计数,记录特定任务的历史执行次数。
最终优先级指标:
综合了语义价值、截止时间紧急度和资源成本 的多维考量,形成动态调整的优先级队列 Q。
在资源分配层面,CCA 将任务派发建模为混合整数规划问题,目标函数:
要求最小化带优先权重的总资源消耗,约束条件确保智能体 的资源负载 不超过其容量 ,该模型支持异构计算单元(CPU/GPU/TPU)的差异化资源配置,并通过松弛-修正算法实现快速求解。
系统设计上,CCA 能够进行时变探索项自适应发现高价值任务类型,利用加权架构实现多目标权衡;资源模型的模块化设计兼容横向扩展,支持千级智能体的异步任务处理;内置容错机制通过 函数自动提升停滞任务优先级,配合超时重试策略保障任务可靠性。这种融合语义推理与运筹优化的混合架构,使 CCA 在动态环境中保持调度效率与鲁棒性的平衡。
提取智能体 Ingestion Agent
提取智能体(Ingestion Agents,IA)从原始文献中高效提取并规范化知识的核心任务。IA模块通过专门设计的LLM提示机制自动解析PDF或HTML格式的原始文献内容,并针对光学字符识别(OCR)错误、表格结构异常等复杂场景进行智能修正。该模块通过语义分析与格式标准化处理,将异构的原始文本统一转换为结构化文本表示,同时提取关键元数据(包括标题、作者、期刊名称、出版日期及DOI等唯一标识符)。为了确保下游Agent的语义连贯性,IA进一步对非ASCII字符(如希腊字母、特殊符号)进行编码转换,将其映射为ASCII字符或最小化LaTeX标记。最终,IA输出包含标准化文本内容与元数据的JSON结构化数据,其中文本内容以单一字符串或保留原始层级结构的数组形式存储,以便后续Reader Agents基于领域相关性评分进行内容筛选与片段划分。这一过程通过自动化纠错与语义增强,显著提升了非结构化文本向知识图谱构建输入的适配性。
阅读智能体 Reader Agent
阅读智能体(Reader Agents,RA)将规范化后的文本解析成连贯的片段(如摘要、方法、结果等),并过滤掉不相关的内容。设为归一化后的文档,Reader Agents 会将分割为。每个片段会被赋予一个相关性得分,其计算方式为
,根据特定领域的指令,来评估该片段相对于当前知识图谱的生物医学意义。如果(其中δ是经过领域校准的阈值),RA就会丢弃该片段,而保留下来的片段则会被传递给总结智能体Summarizer Agent。
总结智能体 Summarizer Agents
总结智能体(Summarizer Agents,SA)将阅读智能体得到的文本片段进行总结,以减少计算开销。定义:u_j=LLM∗summ(s_j,P∗summ)u\_j=\text{LLM}*{summ}(s\_j,P*{summ})u_j=LLM∗summ(s_j,P∗summ)其中,用于提示大型语言模型保留关键实体、关系和特定于领域的术语。这种总结确保实体提取智能体和关系提取智能体接收高信号和低噪声的文本输入。
实体提取智能体 Entity Extraction Agent
实体提取智能体(Entity Extraction Agent,EEA)采用基于LLM的命名实体识别(NER)技术,结合特定领域的提示和字典/本体过滤,识别文本中的相关实体,并将其规范化为知识图谱中的标准形式。通过在联合嵌入空间中最小化距离函数,将原始实体映射为规范化实体,新实体则被标记并添加到候选顶点集 。
关系提取智能体 Relationship Extraction Agent
关系提取智能体(Relationship Extraction Agent,REA)在实体规范化的基础上,利用基于 LLM 的分类器,对实体对之间的关系进行预测。根据设定的概率阈值,选择可能的关系并形成三元组,同时允许对一段文本中的多个关系进行多标签预测。
模式对齐智能体 Schema Alignment Agent
模式对齐智能体(Schema Alignment Agent,SAA)负责将新提取的实体和关系与知识图谱的现有模式进行匹配。对于不匹配的实体和关系,通过 LLM 进行特定领域的分类,将其映射到已知的类型,若无法找到合适匹配,则标记为候选添加项,以便后续审查。
冲突解决智能体 Conflict Resolution Agent
冲突解决智能体(Conflict Resolution Agent,CRA)检测新提取的三元组与知识图谱中现有关系之间的逻辑矛盾。利用基于 LLM 的辩论提示,对冲突进行分类和解决,根据系统的置信度,决定是否丢弃冲突的三元组或提交给专家审查。
评价智能体 Evaluator Agent
评价智能体(Evaluator Agent,EA)汇总多个验证信号,计算每个三元组的全局置信度、清晰度和相关性得分。通过加权平均或逻辑函数,对这些得分进行综合评估,根据设定的阈值,决定是否将三元组最终整合到知识图谱中,确保整合的知识具有较高的质量。
Experiment Setup
数据收集
本文从PubMed挑选科学出版物,涵盖基因组学、蛋白质组学、代谢组学三个主要领域。基因组学语料库含 720 篇聚焦基因相关研究的论文;蛋白质组学语料库有 360 篇关于蛋白质研究的论文;代谢组学语料库包含 120 篇探讨代谢相关研究的论文。所有文章均为 PDF 格式,由 KARMA 中的提取智能体进行处理。
LLM 骨干模型
本文选用 GLM-4、GPT-4o、DeepSeek-v3 这三款通用 LLM 作为 KARMA 多智能体知识图谱丰富管道的基础模型,通过其 API 进行评估。实验中每个 KARMA 智能体共享同一基础模型,且尽量减少提示策略的修改,以确保不同模型和领域之间的可比性,进而分析不同基础模型对最终构建知识图谱的影响。
评估指标
- 核心指标:通过平均置信度、平均清晰度、平均相关性评估新增三元组质量。平均置信度反映所有新三元组置信度得分均值;平均清晰度衡量每个关系的明确直接程度;平均相关性体现关系在领域内的重要意义。
- 图统计指标:用覆盖增益和连通性增益量化增强后知识图谱的结构属性。覆盖增益指知识图谱中新增的实体数量;连通性增益是现有实体节点度的净增加量。
- 质量指标:通过冲突比率、基于 LLM 的正确率、问答一致性评估知识图谱可靠性和可用性。冲突比率表示因矛盾被冲突解决代理移除的新提取边的比例;基于 LLM 的正确率是被判断为可能正确的新三元组占所有新三元组的比例;问答一致性是通过知识图谱遍历得到的答案被认为合理的比例。
Results
整体评估
KARMA 通过多智能体架构显著扩展了特定领域的知识图谱。与基于 GLM-4 的单智能体方法相比,KARMA 性能更优;在不同领域表现有所差异,在基因组学领域识别的实体最多;LLM 骨干模型的选择对知识图谱质量影响大,DeepSeek-v3 在多数指标上表现出色;自动评估知识和解决冲突能提高提取知识图谱的质量,提升基于 LLM 的准确率。
领域层面观察
- 基因组学:该领域模型差异明显,DeepSeek-v3 实现了 38,230 的覆盖增益,同时保持 0.831 的竞争力正确率,表明 MoE 架构在大规模提取中能平衡召回率和精确率。
- 蛋白质组学:DeepSeek-v3 在核心指标和结构增益方面领先,GLM-4 的问答一致性最高。DeepSeek-v3 比 GPT-4o 的覆盖增益高 19.1%,对蛋白质相互作用的细微差异更敏感。
- 代谢组学:尽管语料库最小,但 GLM-4 清晰度最高,GPT-4o 正确率最高。DeepSeek-v3 的连通性增益比 GPT-4o 高 127%,在从有限数据推断代谢途径方面能力独特。
LLM 骨干模型分析
不同骨干模型各有优势。DeepSeek-v3 覆盖增益突出,在基因组学和代谢组学领域远超 GPT-4o,且保持一定正确率;GPT-4o 精确率优先,在部分领域正确率高,但连通性增益较低;GLM-4 虽参数较少,但在特定领域表现出色,如在代谢组学的清晰度和蛋白质组学的问答一致性方面最佳,且冲突率具有竞争力。
成本分析
不同领域在token使用和处理时间上存在权衡。基因组学的完成token分布较高,解释了该领域较高的覆盖增益;蛋白质组学的处理时间分布较广,与知识质量指标的良好表现相关,说明较长处理时间有助于更深入的关系分析和验证。
消融研究
通过去除或替换特定智能体评估其对性能的影响。去除汇总代理会产生更多实体和三元组,但降低了准确性和连贯性;禁用冲突解决代理显著降低正确性;省略评估代理对可用性影响最大。这表明 KARMA 的多智能体设计对平衡知识图谱丰富过程中的准确性、一致性和可用性至关重要。
Conclusion
图片转存中…(img-ii7r2fSa-1758537508080)]
通过去除或替换特定智能体评估其对性能的影响。去除汇总代理会产生更多实体和三元组,但降低了准确性和连贯性;禁用冲突解决代理显著降低正确性;省略评估代理对可用性影响最大。这表明 KARMA 的多智能体设计对平衡知识图谱丰富过程中的准确性、一致性和可用性至关重要。
Conclusion
本文提出的 KARMA 框架借助多智能体应对从科学文献中扩充知识图谱的难题,通过将任务细分到专门智能体实现知识的精准整合,实验验证了其相比单智能体方法的优势 。本框架也存在局限性,评估依赖 LLM 指标且缺乏专家验证,在不同领域性能有差异,如代谢组学领域建模稀疏关系面临挑战。从伦理角度看,LLM 的偏见可能导致知识图谱关联错误,数据隐私也需关注,人工监督必不可少。未来可整合混合神经符号方法、优化智能体协作协议来改进框架,在确保符合伦理标准的同时推动知识的发展。
零基础如何高效学习大模型?
你是否懂 AI,是否具备利用大模型去开发应用能力,是否能够对大模型进行调优,将会是决定自己职业前景的重要参数。
为了帮助大家打破壁垒,快速了解大模型核心技术原理,学习相关大模型技术。从原理出发真正入局大模型。在这里我和鲁为民博士系统梳理大模型学习脉络,这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️
【大模型全套视频教程】
教程从当下的市场现状和趋势出发,分析各个岗位人才需求,带你充分了解自身情况,get 到适合自己的 AI 大模型入门学习路线。
从基础的 prompt 工程入手,逐步深入到 Agents,其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。
同时课程详细介绍了AI大模型技能图谱知识树,规划属于你自己的大模型学习路线,并且专门提前收集了大家对大模型常见的疑问,集中解答所有疑惑!
深耕 AI 领域技术专家带你快速入门大模型
跟着行业技术专家免费学习的机会非常难得,相信跟着学习下来能够对大模型有更加深刻的认知和理解,也能真正利用起大模型,从而“弯道超车”,实现职业跃迁!
【AI 大模型面试题 】
除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。
【大厂 AI 岗位面经分享(92份)】
【AI 大模型面试真题(102 道)】
【LLMs 面试真题(97 道)】
【640套 AI 大模型行业研究报告】
【AI大模型完整版学习路线图(2025版)】
明确学习方向,2025年 AI 要学什么,这一张图就够了!
👇👇点击下方卡片链接免费领取全部内容👇👇
抓住AI浪潮,重塑职业未来!
科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整,缩减部分传统岗位,同时AI相关技术岗位(尤其是大模型方向)需求激增,已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。
行业趋势洞察:
- 转型加速: 传统IT岗位面临转型压力,拥抱AI技术成为关键。
- 人才争夺战: 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师,在头部大厂及明星AI企业中的薪资竞争力显著提升(部分核心岗位可达较高水平)。
- 门槛提高: “具备AI项目实操经验”正迅速成为简历筛选的重要标准,预计未来1-2年将成为普遍门槛。
与其观望,不如行动!
面对变革,主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验,是抓住时代机遇、实现职业跃迁的关键一步。
01 为什么分享这份学习资料?
当前,我国在AI大模型领域的高质量人才供给仍显不足,行业亟需更多有志于此的专业力量加入。
因此,我们决定将这份精心整理的AI大模型学习资料,无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴!
我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题,也欢迎交流探讨,我们乐于分享所知。
*02 这份资料的价值在哪里?*
专业背书,系统构建:
-
本资料由我与鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位,在人工智能领域造诣深厚:
-
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖(中国人工智能领域重要奖项)。
-
目前,我有幸与鲁博士共同进行人工智能相关研究。
内容实用,循序渐进:
-
资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
-
包含丰富的视频教程与实战项目案例,强调动手实践能力。
-
无论你是初探AI领域的新手,还是已有一定技术基础希望深入大模型的学习者,这份资料都能为你提供系统性的学习路径和宝贵的实践参考,助力你提升技术能力,向大模型相关岗位转型发展。
抓住机遇,开启你的AI学习之旅!
更多推荐
所有评论(0)