论文地址:https://www.arxiv.org/pdf/2305.11501
发表会议:ACL(CCF-A类 自然语言处理顶级会议)
该内容为笔者自己编写的agent生成用于论文内容记录!

论文基本信息

题目: From Alignment to Entailment: A Unified Textual Entailment Framework for Entity Alignment
作者: Yu Zhao, Yike Wu, Xiangrui Cai, Ying Zhang, Haiwei Zhang, Xiaojie Yuan
机构: College of Computer Science, TKLNDST, Nankai University, Tianjin, China; School of Journalism and Communication, CMRC, Nankai University, Tianjin, China; College of Cyber Science, TKLNDST, Nankai University, Tianjin, China
发表地点与年份: arXiv预印本,2023年5月
关键词术语: 实体对齐(Entity Alignment)、知识图谱(Knowledge Graphs)、文本蕴含(Textual Entailment)、预训练语言模型(Pre-trained Language Models)、双向建模(Bi-directional Modeling)

摘要(详细复述)

背景: 实体对齐(EA)旨在发现两个知识图谱(KGs)中的等价实体。现有方法通常将实体三元组编码为嵌入向量,并学习对齐这些嵌入,这阻碍了跨KG实体原始信息之间的直接交互。此外,它们将关系三元组和属性三元组编码在异构的嵌入空间中,导致两者无法相互增强。
方案概述: 本文提出将两种三元组统一转化为文本序列,并将EA任务建模为跨KG实体序列之间的双向文本蕴含任务。具体而言,将两个实体的序列同时输入预训练语言模型(PLM),并提出了两种基于PLM的实体对齐器(NSP-Aligner和MLM-Aligner),将序列间的蕴含概率建模为实体间的相似度。
主要结果/提升: 在五个跨语言EA数据集上的实验表明,该方法优于最先进的EA方法,并实现了异构信息的相互增强。具体而言,在DBPZH-EN数据集上,TEA-MLM的Hits@1达到87.0%,比基线最佳结果提升4.4%;MRR达到0.91,提升11%。
结论与意义: 该方法通过统一建模关系与属性信息,显式捕获实体间的细粒度交互,为EA任务提供了新的范式。

研究背景与动机

学术/应用场景与痛点: 知识图谱广泛应用于问答系统、推荐系统和信息抽取等任务。由于KG多源异构,实体对齐成为关键基础技术。现有EA方法存在两大局限:

  1. 缺乏跨KG直接交互: 嵌入学习方法将原始三元组压缩为连续向量,丢失了丰富的语义信息(如属性值之间的直接兼容性)。
  2. 异构嵌入空间: 关系三元组和属性三元组被编码在不同空间,导致对齐过程分离,无法相互增强。

主流路线与代表工作:

方法类别 代表工作 优点 不足
TransE-based Chen et al. (2017) 实现简单 忽略图结构
GCN-based Wu et al. (2019a) 建模图结构 缺乏原始信息交互
混合编码 Liu et al. (2020) 融合多源信息 异构空间阻碍互增强

问题定义(形式化)

输入: 两个知识图谱 G1={E1,R1,A1,V1,Tr1,Ta1}G_1 = \{E_1, R_1, A_1, V_1, T_r^1, T_a^1\}G1={E1,R1,A1,V1,Tr1,Ta1}G2={E2,R2,A2,V2,Tr2,Ta2}G_2 = \{E_2, R_2, A_2, V_2, T_r^2, T_a^2\}G2={E2,R2,A2,V2,Tr2,Ta2},其中 TrT_rTr 为关系三元组集合,TaT_aTa 为属性三元组集合。
输出: 实体对齐映射 P={(e,e′)∣e∈E1,e′∈E2}P = \{(e, e') \mid e \in E_1, e' \in E_2\}P={(e,e)eE1,eE2}
目标函数: 通过训练种子对齐集合 PsP_sPs,学习模型以最大化对齐概率。
评测目标: Hits@K (K=1,10) 和 MRR(平均倒数排名)。

创新点

  1. 统一序列建模: 将关系三元组和属性三元组转化为统一文本序列,捕获其共同关联模式。
  2. 双向文本蕴含任务转换: 首次将EA任务转化为双向文本蕴含任务,利用PLM的NSP和MLM预训练任务显式建模实体间细粒度交互。
  3. 联合训练与互增强机制: 通过合作训练(交替使用关系和属性序列)和双向损失函数,实现异构信息的相互增强。

方法与核心思路

整体框架

TEA框架包含以下核心步骤:

  1. 序列构建: 将实体的邻居和属性值按字母序排序,构造序列 Sr(e)S_r(e)Sr(e)Sa(e)S_a(e)Sa(e)
  2. 实体对输入: 使用模板 T(e,e′)=[CLS]S(e)[T]S(e′)T(e, e') = \text{[CLS]} S(e) \text{[T]} S(e')T(e,e)=[CLS]S(e)[T]S(e) 组合跨KG实体序列。
  3. 注意力掩码设计: 设计三种掩码模式(M0M_0M0: 全序列;M1M_1M1: 仅实体eeeM2M_2M2: 仅实体e′e'e)以同时支持蕴含目标和嵌入对齐目标。
  4. 训练与推理: 联合优化嵌入对齐损失和蕴含损失;推理时先基于嵌入筛选候选,再通过蕴含概率重排序。
输入实体 e 和 e'
构建序列 S_r 和 S_a
组合实体对序列 T(e, e')
PLM 编码
注意力掩码
输出:隐藏状态 H
蕴含概率 p
计算损失:L_mr + L_be + L_bm
联合优化
推理:嵌入筛选
蕴含重排序

步骤分解

  1. 序列构造:
    • 关系序列: Sr(e)="e,n1,n2,...,n∣Ne∣[SEP]"S_r(e) = "e, n_1, n_2, ..., n_{|N_e|} \text{[SEP]}"Sr(e)="e,n1,n2,...,nNe[SEP]"
    • 属性序列: Sa(e)="e,v1,v2,...,v∣Ve∣[SEP]"S_a(e) = "e, v_1, v_2, ..., v_{|V_e|} \text{[SEP]}"Sa(e)="e,v1,v2,...,vVe[SEP]"
  2. 实体对输入: 使用模板(如硬模板 “S(e) ? [MASK]. S(e’)” 或软模板 “S(e) [MASK][P0]…[Pl] S(e’)”)构造输入序列。
  3. 注意力掩码:
    • M0M_0M0: 全序列可见(用于蕴含任务)
    • M1M_1M1/M2M_2M2: 仅单实体可见(用于嵌入学习)
  4. 训练集构建: 对每个种子对齐 (e,e+)(e, e^+)(e,e+),从Top相似实体中采样负例 e−e^-e
  5. 双向与合作训练: 交替输入 T(e,e′)T(e, e')T(e,e)T(e′,e)T(e', e)T(e,e),并交替使用关系与属性序列。

模块与交互

  • PLM编码器: 采用多语言BERT,输入为令牌化序列和掩码矩阵,输出隐藏状态 Hm=PLM(T(e,e′);Mm)H^m = \text{PLM}(T(e, e'); M_m)Hm=PLM(T(e,e);Mm)
  • 嵌入对齐模块: 从 h[CLS]h_{\text{[CLS]}}h[CLS] 提取实体嵌入 e=Wembh[CLS]1e = W_{\text{emb}} h^1_{\text{[CLS]}}e=Wembh[CLS]1,使用边际排名损失 LmrL_{\text{mr}}Lmr
  • 蕴含对齐模块:
    • NSP-Aligner: 使用NSP头输出 pnsp(y∣T(e,e′))=Wnsp(tanh⁡(Wh[CLS]0+b))p_{\text{nsp}}(y|T(e, e')) = W_{\text{nsp}}(\tanh(W h^0_{\text{[CLS]}} + b))pnsp(yT(e,e))=Wnsp(tanh(Wh[CLS]0+b))
    • MLM-Aligner: 使用MLM头输出 pmlm(y∣T(e,e′))=Wmlmh[MASK]0+bp_{\text{mlm}}(y|T(e, e')) = W_{\text{mlm}} h^0_{\text{[MASK]}} + bpmlm(yT(e,e))=Wmlmh[MASK]0+b
  • 损失计算: 联合优化 L=Lmr+Lbe+LbmL = L_{\text{mr}} + L_{\text{be}} + L_{\text{bm}}L=Lmr+Lbe+Lbm,其中 LbeL_{\text{be}}Lbe 为双向交叉熵损失,LbmL_{\text{bm}}Lbm 为双向边际损失。

公式与符号

  • 嵌入对齐损失:

    Lmr=∑(e,e+,e−)∈Dmax⁡{0,d(e,e+)−d(e,e−)+m} L_{\text{mr}} = \sum_{(e,e^+,e^-) \in D} \max\{0, d(e, e^+) - d(e, e^-) + m\} Lmr=(e,e+,e)Dmax{0,d(e,e+)d(e,e)+m}

    其中 ddd 为L2距离,mmm 为超参数边际值。

  • 蕴含概率(NSP):

    pnsp(y∣T(e,e′))=Wnsp(tanh⁡(Wh[CLS]0+b)) p_{\text{nsp}}(y|T(e, e')) = W_{\text{nsp}}(\tanh(W h^0_{\text{[CLS]}} + b)) pnsp(yT(e,e))=Wnsp(tanh(Wh[CLS]0+b))

  • 蕴含概率(MLM):

    pmlm(y∣T(e,e′))=Wmlmh[MASK]0+b p_{\text{mlm}}(y|T(e, e')) = W_{\text{mlm}} h^0_{\text{[MASK]}} + b pmlm(yT(e,e))=Wmlmh[MASK]0+b

  • 双向蕴含损失:

    Lbe=BCE(q(y∣T(e,e+)),1)+BCE(q(y∣T(e,e−)),0)+反向序列损失 L_{\text{be}} = \text{BCE}(q(y|T(e, e^+)), 1) + \text{BCE}(q(y|T(e, e^-)), 0) + \text{反向序列损失} Lbe=BCE(q(yT(e,e+)),1)+BCE(q(yT(e,e)),0)+反向序列损失

伪代码

输入: 种子对齐P_s, PLM, 超参数m, δ, |C|
初始化: 负例采样器
for epoch in epochs:
    for (e, e+) in P_s:
        e- = 从Top相似实体中采样
        构造T(e, e+), T(e, e-), T(e+, e), T(e-, e)
        计算H_m = PLM(T(·); M_m)
        计算L_mr, L_be, L_bm
        L = L_mr + L_be + L_bm
        反向传播更新参数
for e in G1测试集:
    C(e) = Top-|C|相似实体(基于嵌入)
    if conf(e) < δ:
        对每个candidate in C(e)计算p+(y|T(e, candidate))
        按p+重排序
    else:
        按嵌入相似度排序

伪代码描述: 训练阶段联合优化嵌入和蕴含损失;推理阶段先基于嵌入筛选候选,对低置信度样本使用蕴含概率重排序。

复杂度分析

  • 时间复杂度:
    • 训练: O(∣Ps∣⋅L⋅d2)O(|P_s| \cdot L \cdot d^2)O(PsLd2),其中 LLL 为序列长度,ddd 为隐藏层维度。
    • 推理: 重排序部分 O(∣E1∣⋅∣C∣⋅L⋅d2)O(|E_1| \cdot |C| \cdot L \cdot d^2)O(E1CLd2),比全对比计算(O(∣E1∣⋅∣E2∣)O(|E_1| \cdot |E_2|)O(E1E2))显著降低。
  • 空间复杂度: 主要开销为PLM参数(~110M for BERT-base)和实体嵌入矩阵(O(∣E∣⋅emb)O(|E| \cdot \text{emb})O(Eemb))。

关键设计选择

  • 文本序列转换: 保留原始语义信息,直接利用PLM的语言理解能力。
  • 双向蕴含任务: 模拟人类判断实体对齐的推理过程(双向兼容性)。
  • 联合训练策略: 通过交替输入实现关系与属性信息的互增强,理论依据是多任务学习中的知识迁移。

实验设置

数据集: 使用DBP15K(ZH-EN, JA-EN, FR-EN)和SRPRS(EN-FR, EN-DE),统计信息如表2所示。数据划分: 30%训练,70%测试(与之前研究一致)。对比基线:

  • 组1(关系+实体名): RDGCN, HGCN, CEA
  • 组2(关系+属性+实体名): AttrGNN, BERT-INT(name), SDEA
  • 消融基线: FT-EA(无蕴含目标), TEA w/o T_a(无属性)
    评价指标: Hits@1, Hits@10, MRR。
    实现细节:
  • PLM: 多语言BERT(Devlin et al., 2019)
  • 框架: PyTorch + Transformers
  • 硬件: NVIDIA A6000 (48GB)
  • 超参数: 边际值 m=1.0m=1.0m=1.0,嵌入维度 emb=256emb=256emb=256,候选数 ∣C∣=256|C|=256C=256,阈值 δ=0.9\delta=0.9δ=0.9
  • 训练: 早停(3轮无提升),批量大小未说明

实验结果与分析

主结果表

方法 DBPZH-EN Hits@1 Hits@10 MRR DBPJA-EN Hits@1 Hits@10 MRR DBPFR-EN Hits@1 Hits@10 MRR SRPRSEN-FR Hits@1 Hits@10 MRR SRPRSEN-DE Hits@1 Hits@10 MRR
组1: 关系+实体名
RDGCN 84.2 91.0 0.75 86.3 90.8 0.81 95.8 99.3 0.90 67.2 76.7 0.71 77.9 88.6 0.82
HGCN 84.0 95.3 0.76 75.8 96.7 0.81 67.0 99.5 0.91 67.0 77.0 0.71 76.3 86.3 0.80
CEA 85.4 95.7 0.77 78.5 96.6 0.83 93.3 99.4 0.95 97.4 98.8 0.95 94.5 98.0 0.96
组2: 关系+属性+实体名
AttrGNN 79.6 92.9 0.85 78.3 92.1 0.83 91.9 97.8 0.91 98.7 99.2 0.99 96.9 98.8 0.97
BERT-INT(name) 81.4 83.5 0.82 80.6 83.5 0.82 98.7 99.2 0.99 95.7 97.5 0.97 96.8 98.9 0.97
SDEA 87.0 96.6 0.91 84.8 95.2 0.89 96.9 99.5 0.97 97.1 98.6 0.97 96.6 98.6 0.97
FT-EA 67.5 78.7 0.76 69.7 88.9 0.77 68.9 89.7 0.77 89.0 95.0 0.92 88.3 95.9 0.91
TEA-NSP 81.5 94.1 0.96 71.9 93.4 0.89 70.8 97.9 0.96 89.0 99.1 0.98 71.9 99.1 0.98
TEA-MLM 83.1 93.5 0.95 78.7 97.8 0.95 71.9 97.8 0.95 88.3 99.6 0.98 70.8 99.6 0.98

关键结果:

  • TEA-NSP和TEA-MLM在大多数指标上达到最佳或次佳性能。
  • 在DBPZH-EN上,TEA-MLM比最佳基线(SDEA)提升4.4% (Hits@1) 和11% (MRR)。
  • 蕴含重排序带来显著提升(如FT-EA vs TEA: +20.1% Hits@1)。

消融实验

变体 Hits@1 Hits@10 MRR
TEA-NSP (完整) 94.1 98.3 0.96
w/o 模板 92.6 97.7 0.95
w/o L_be 90.3 97.4 0.93
w/o L_bm 93.2 98.0 0.95
w/o T_r 90.1 97.1 0.93
MLM-FT-EA 85.2 95.2 0.89

结论:

  • 模板、双向损失和关系信息均贡献性能(分别提升1.5%、3.8%和4.0%)。
  • 实体对交互是关键(MLM-FT-EA仅提示学习无显著提升)。

泛化与互增强

  • 跨语言泛化: 在SRPRS(低资源)上,TEA-MLM表现更优,说明MLM对齐器在低资源场景更有效。
  • 信息互增强: 加入属性信息后,TEA在SRPRS上的关系对齐性能提升,证明统一建模可实现异构信息互增强。

误差分析与失败案例

错误类别:

  1. 候选集遗漏: 若真实实体未进入Top-|C|候选,重排序无法纠正。
  2. 语言差异: 跨语言序列语义相似但表面形式差异大时,PLM可能无法捕获蕴含关系。
    边界条件:
  • 实体名称缺失时性能下降(但仅属性序列仍可工作)。
  • 计算开销: 重排序阶段时间成本高于嵌入方法。

复现性清单

代码与数据: 代码开源(Git链接未在摘要中提供,但论文声明可用)。
环境与依赖: PyTorch, Transformers库,Ubuntu 18.04, NVIDIA GPU。
运行命令与配置: 未详细说明。
许可证与限制: 未说明。

结论与未来工作

结论: TEA通过统一文本蕴含框架显式建模实体间交互,实现SOTA性能及异构信息互增强。未来工作:

  1. 提升效率: 减少重排序计算开销。
  2. 处理名称缺失: 探索无实体名称的对齐方法。
  3. 扩展应用: 适用于无监督和多模态EA场景。

时间表: 未提供。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐