2023 ACL From Alignment to Entailment A Unified Textual Entailment Framework for Entity Alignment
本文提出了一种新颖的实体对齐方法TEA,将传统嵌入学习方法转化为基于预训练语言模型的文本蕴含任务。该方法通过统一处理关系三元组和属性三元组为文本序列,利用双向文本蕴含建模实体间细粒度交互。实验表明,在DBPZH-EN等跨语言数据集上,TEA显著优于现有方法,Hits@1达到87.0%,比最佳基线提升4.4%。这一成果为知识图谱对齐提供了新范式,实现了异构信息间的相互增强。
论文地址:https://www.arxiv.org/pdf/2305.11501
发表会议:ACL(CCF-A类 自然语言处理顶级会议)
该内容为笔者自己编写的agent生成用于论文内容记录!
论文基本信息
题目: From Alignment to Entailment: A Unified Textual Entailment Framework for Entity Alignment
作者: Yu Zhao, Yike Wu, Xiangrui Cai, Ying Zhang, Haiwei Zhang, Xiaojie Yuan
机构: College of Computer Science, TKLNDST, Nankai University, Tianjin, China; School of Journalism and Communication, CMRC, Nankai University, Tianjin, China; College of Cyber Science, TKLNDST, Nankai University, Tianjin, China
发表地点与年份: arXiv预印本,2023年5月
关键词术语: 实体对齐(Entity Alignment)、知识图谱(Knowledge Graphs)、文本蕴含(Textual Entailment)、预训练语言模型(Pre-trained Language Models)、双向建模(Bi-directional Modeling)
摘要(详细复述)
背景: 实体对齐(EA)旨在发现两个知识图谱(KGs)中的等价实体。现有方法通常将实体三元组编码为嵌入向量,并学习对齐这些嵌入,这阻碍了跨KG实体原始信息之间的直接交互。此外,它们将关系三元组和属性三元组编码在异构的嵌入空间中,导致两者无法相互增强。
方案概述: 本文提出将两种三元组统一转化为文本序列,并将EA任务建模为跨KG实体序列之间的双向文本蕴含任务。具体而言,将两个实体的序列同时输入预训练语言模型(PLM),并提出了两种基于PLM的实体对齐器(NSP-Aligner和MLM-Aligner),将序列间的蕴含概率建模为实体间的相似度。
主要结果/提升: 在五个跨语言EA数据集上的实验表明,该方法优于最先进的EA方法,并实现了异构信息的相互增强。具体而言,在DBPZH-EN数据集上,TEA-MLM的Hits@1达到87.0%,比基线最佳结果提升4.4%;MRR达到0.91,提升11%。
结论与意义: 该方法通过统一建模关系与属性信息,显式捕获实体间的细粒度交互,为EA任务提供了新的范式。
研究背景与动机
学术/应用场景与痛点: 知识图谱广泛应用于问答系统、推荐系统和信息抽取等任务。由于KG多源异构,实体对齐成为关键基础技术。现有EA方法存在两大局限:
- 缺乏跨KG直接交互: 嵌入学习方法将原始三元组压缩为连续向量,丢失了丰富的语义信息(如属性值之间的直接兼容性)。
- 异构嵌入空间: 关系三元组和属性三元组被编码在不同空间,导致对齐过程分离,无法相互增强。
主流路线与代表工作:
方法类别 | 代表工作 | 优点 | 不足 |
---|---|---|---|
TransE-based | Chen et al. (2017) | 实现简单 | 忽略图结构 |
GCN-based | Wu et al. (2019a) | 建模图结构 | 缺乏原始信息交互 |
混合编码 | Liu et al. (2020) | 融合多源信息 | 异构空间阻碍互增强 |
问题定义(形式化)
输入: 两个知识图谱 G1={E1,R1,A1,V1,Tr1,Ta1}G_1 = \{E_1, R_1, A_1, V_1, T_r^1, T_a^1\}G1={E1,R1,A1,V1,Tr1,Ta1} 和 G2={E2,R2,A2,V2,Tr2,Ta2}G_2 = \{E_2, R_2, A_2, V_2, T_r^2, T_a^2\}G2={E2,R2,A2,V2,Tr2,Ta2},其中 TrT_rTr 为关系三元组集合,TaT_aTa 为属性三元组集合。
输出: 实体对齐映射 P={(e,e′)∣e∈E1,e′∈E2}P = \{(e, e') \mid e \in E_1, e' \in E_2\}P={(e,e′)∣e∈E1,e′∈E2}。
目标函数: 通过训练种子对齐集合 PsP_sPs,学习模型以最大化对齐概率。
评测目标: Hits@K (K=1,10) 和 MRR(平均倒数排名)。
创新点
- 统一序列建模: 将关系三元组和属性三元组转化为统一文本序列,捕获其共同关联模式。
- 双向文本蕴含任务转换: 首次将EA任务转化为双向文本蕴含任务,利用PLM的NSP和MLM预训练任务显式建模实体间细粒度交互。
- 联合训练与互增强机制: 通过合作训练(交替使用关系和属性序列)和双向损失函数,实现异构信息的相互增强。
方法与核心思路
整体框架
TEA框架包含以下核心步骤:
- 序列构建: 将实体的邻居和属性值按字母序排序,构造序列 Sr(e)S_r(e)Sr(e) 和 Sa(e)S_a(e)Sa(e)。
- 实体对输入: 使用模板 T(e,e′)=[CLS]S(e)[T]S(e′)T(e, e') = \text{[CLS]} S(e) \text{[T]} S(e')T(e,e′)=[CLS]S(e)[T]S(e′) 组合跨KG实体序列。
- 注意力掩码设计: 设计三种掩码模式(M0M_0M0: 全序列;M1M_1M1: 仅实体eee;M2M_2M2: 仅实体e′e'e′)以同时支持蕴含目标和嵌入对齐目标。
- 训练与推理: 联合优化嵌入对齐损失和蕴含损失;推理时先基于嵌入筛选候选,再通过蕴含概率重排序。
步骤分解
- 序列构造:
- 关系序列: Sr(e)="e,n1,n2,...,n∣Ne∣[SEP]"S_r(e) = "e, n_1, n_2, ..., n_{|N_e|} \text{[SEP]}"Sr(e)="e,n1,n2,...,n∣Ne∣[SEP]"
- 属性序列: Sa(e)="e,v1,v2,...,v∣Ve∣[SEP]"S_a(e) = "e, v_1, v_2, ..., v_{|V_e|} \text{[SEP]}"Sa(e)="e,v1,v2,...,v∣Ve∣[SEP]"
- 实体对输入: 使用模板(如硬模板 “S(e) ? [MASK]. S(e’)” 或软模板 “S(e) [MASK][P0]…[Pl] S(e’)”)构造输入序列。
- 注意力掩码:
- M0M_0M0: 全序列可见(用于蕴含任务)
- M1M_1M1/M2M_2M2: 仅单实体可见(用于嵌入学习)
- 训练集构建: 对每个种子对齐 (e,e+)(e, e^+)(e,e+),从Top相似实体中采样负例 e−e^-e−。
- 双向与合作训练: 交替输入 T(e,e′)T(e, e')T(e,e′) 和 T(e′,e)T(e', e)T(e′,e),并交替使用关系与属性序列。
模块与交互
- PLM编码器: 采用多语言BERT,输入为令牌化序列和掩码矩阵,输出隐藏状态 Hm=PLM(T(e,e′);Mm)H^m = \text{PLM}(T(e, e'); M_m)Hm=PLM(T(e,e′);Mm)。
- 嵌入对齐模块: 从 h[CLS]h_{\text{[CLS]}}h[CLS] 提取实体嵌入 e=Wembh[CLS]1e = W_{\text{emb}} h^1_{\text{[CLS]}}e=Wembh[CLS]1,使用边际排名损失 LmrL_{\text{mr}}Lmr。
- 蕴含对齐模块:
- NSP-Aligner: 使用NSP头输出 pnsp(y∣T(e,e′))=Wnsp(tanh(Wh[CLS]0+b))p_{\text{nsp}}(y|T(e, e')) = W_{\text{nsp}}(\tanh(W h^0_{\text{[CLS]}} + b))pnsp(y∣T(e,e′))=Wnsp(tanh(Wh[CLS]0+b))
- MLM-Aligner: 使用MLM头输出 pmlm(y∣T(e,e′))=Wmlmh[MASK]0+bp_{\text{mlm}}(y|T(e, e')) = W_{\text{mlm}} h^0_{\text{[MASK]}} + bpmlm(y∣T(e,e′))=Wmlmh[MASK]0+b
- 损失计算: 联合优化 L=Lmr+Lbe+LbmL = L_{\text{mr}} + L_{\text{be}} + L_{\text{bm}}L=Lmr+Lbe+Lbm,其中 LbeL_{\text{be}}Lbe 为双向交叉熵损失,LbmL_{\text{bm}}Lbm 为双向边际损失。
公式与符号
-
嵌入对齐损失:
Lmr=∑(e,e+,e−)∈Dmax{0,d(e,e+)−d(e,e−)+m} L_{\text{mr}} = \sum_{(e,e^+,e^-) \in D} \max\{0, d(e, e^+) - d(e, e^-) + m\} Lmr=(e,e+,e−)∈D∑max{0,d(e,e+)−d(e,e−)+m}
其中 ddd 为L2距离,mmm 为超参数边际值。
-
蕴含概率(NSP):
pnsp(y∣T(e,e′))=Wnsp(tanh(Wh[CLS]0+b)) p_{\text{nsp}}(y|T(e, e')) = W_{\text{nsp}}(\tanh(W h^0_{\text{[CLS]}} + b)) pnsp(y∣T(e,e′))=Wnsp(tanh(Wh[CLS]0+b))
-
蕴含概率(MLM):
pmlm(y∣T(e,e′))=Wmlmh[MASK]0+b p_{\text{mlm}}(y|T(e, e')) = W_{\text{mlm}} h^0_{\text{[MASK]}} + b pmlm(y∣T(e,e′))=Wmlmh[MASK]0+b
-
双向蕴含损失:
Lbe=BCE(q(y∣T(e,e+)),1)+BCE(q(y∣T(e,e−)),0)+反向序列损失 L_{\text{be}} = \text{BCE}(q(y|T(e, e^+)), 1) + \text{BCE}(q(y|T(e, e^-)), 0) + \text{反向序列损失} Lbe=BCE(q(y∣T(e,e+)),1)+BCE(q(y∣T(e,e−)),0)+反向序列损失
伪代码
输入: 种子对齐P_s, PLM, 超参数m, δ, |C|
初始化: 负例采样器
for epoch in epochs:
for (e, e+) in P_s:
e- = 从Top相似实体中采样
构造T(e, e+), T(e, e-), T(e+, e), T(e-, e)
计算H_m = PLM(T(·); M_m)
计算L_mr, L_be, L_bm
L = L_mr + L_be + L_bm
反向传播更新参数
for e in G1测试集:
C(e) = Top-|C|相似实体(基于嵌入)
if conf(e) < δ:
对每个candidate in C(e)计算p+(y|T(e, candidate))
按p+重排序
else:
按嵌入相似度排序
伪代码描述: 训练阶段联合优化嵌入和蕴含损失;推理阶段先基于嵌入筛选候选,对低置信度样本使用蕴含概率重排序。
复杂度分析
- 时间复杂度:
- 训练: O(∣Ps∣⋅L⋅d2)O(|P_s| \cdot L \cdot d^2)O(∣Ps∣⋅L⋅d2),其中 LLL 为序列长度,ddd 为隐藏层维度。
- 推理: 重排序部分 O(∣E1∣⋅∣C∣⋅L⋅d2)O(|E_1| \cdot |C| \cdot L \cdot d^2)O(∣E1∣⋅∣C∣⋅L⋅d2),比全对比计算(O(∣E1∣⋅∣E2∣)O(|E_1| \cdot |E_2|)O(∣E1∣⋅∣E2∣))显著降低。
- 空间复杂度: 主要开销为PLM参数(~110M for BERT-base)和实体嵌入矩阵(O(∣E∣⋅emb)O(|E| \cdot \text{emb})O(∣E∣⋅emb))。
关键设计选择
- 文本序列转换: 保留原始语义信息,直接利用PLM的语言理解能力。
- 双向蕴含任务: 模拟人类判断实体对齐的推理过程(双向兼容性)。
- 联合训练策略: 通过交替输入实现关系与属性信息的互增强,理论依据是多任务学习中的知识迁移。
实验设置
数据集: 使用DBP15K(ZH-EN, JA-EN, FR-EN)和SRPRS(EN-FR, EN-DE),统计信息如表2所示。数据划分: 30%训练,70%测试(与之前研究一致)。对比基线:
- 组1(关系+实体名): RDGCN, HGCN, CEA
- 组2(关系+属性+实体名): AttrGNN, BERT-INT(name), SDEA
- 消融基线: FT-EA(无蕴含目标), TEA w/o T_a(无属性)
评价指标: Hits@1, Hits@10, MRR。
实现细节: - PLM: 多语言BERT(Devlin et al., 2019)
- 框架: PyTorch + Transformers
- 硬件: NVIDIA A6000 (48GB)
- 超参数: 边际值 m=1.0m=1.0m=1.0,嵌入维度 emb=256emb=256emb=256,候选数 ∣C∣=256|C|=256∣C∣=256,阈值 δ=0.9\delta=0.9δ=0.9
- 训练: 早停(3轮无提升),批量大小未说明
实验结果与分析
主结果表
方法 | DBPZH-EN Hits@1 | Hits@10 | MRR | DBPJA-EN Hits@1 | Hits@10 | MRR | DBPFR-EN Hits@1 | Hits@10 | MRR | SRPRSEN-FR Hits@1 | Hits@10 | MRR | SRPRSEN-DE Hits@1 | Hits@10 | MRR |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
组1: 关系+实体名 | |||||||||||||||
RDGCN | 84.2 | 91.0 | 0.75 | 86.3 | 90.8 | 0.81 | 95.8 | 99.3 | 0.90 | 67.2 | 76.7 | 0.71 | 77.9 | 88.6 | 0.82 |
HGCN | 84.0 | 95.3 | 0.76 | 75.8 | 96.7 | 0.81 | 67.0 | 99.5 | 0.91 | 67.0 | 77.0 | 0.71 | 76.3 | 86.3 | 0.80 |
CEA | 85.4 | 95.7 | 0.77 | 78.5 | 96.6 | 0.83 | 93.3 | 99.4 | 0.95 | 97.4 | 98.8 | 0.95 | 94.5 | 98.0 | 0.96 |
组2: 关系+属性+实体名 | |||||||||||||||
AttrGNN | 79.6 | 92.9 | 0.85 | 78.3 | 92.1 | 0.83 | 91.9 | 97.8 | 0.91 | 98.7 | 99.2 | 0.99 | 96.9 | 98.8 | 0.97 |
BERT-INT(name) | 81.4 | 83.5 | 0.82 | 80.6 | 83.5 | 0.82 | 98.7 | 99.2 | 0.99 | 95.7 | 97.5 | 0.97 | 96.8 | 98.9 | 0.97 |
SDEA | 87.0 | 96.6 | 0.91 | 84.8 | 95.2 | 0.89 | 96.9 | 99.5 | 0.97 | 97.1 | 98.6 | 0.97 | 96.6 | 98.6 | 0.97 |
FT-EA | 67.5 | 78.7 | 0.76 | 69.7 | 88.9 | 0.77 | 68.9 | 89.7 | 0.77 | 89.0 | 95.0 | 0.92 | 88.3 | 95.9 | 0.91 |
TEA-NSP | 81.5 | 94.1 | 0.96 | 71.9 | 93.4 | 0.89 | 70.8 | 97.9 | 0.96 | 89.0 | 99.1 | 0.98 | 71.9 | 99.1 | 0.98 |
TEA-MLM | 83.1 | 93.5 | 0.95 | 78.7 | 97.8 | 0.95 | 71.9 | 97.8 | 0.95 | 88.3 | 99.6 | 0.98 | 70.8 | 99.6 | 0.98 |
关键结果:
- TEA-NSP和TEA-MLM在大多数指标上达到最佳或次佳性能。
- 在DBPZH-EN上,TEA-MLM比最佳基线(SDEA)提升4.4% (Hits@1) 和11% (MRR)。
- 蕴含重排序带来显著提升(如FT-EA vs TEA: +20.1% Hits@1)。
消融实验
变体 | Hits@1 | Hits@10 | MRR |
---|---|---|---|
TEA-NSP (完整) | 94.1 | 98.3 | 0.96 |
w/o 模板 | 92.6 | 97.7 | 0.95 |
w/o L_be | 90.3 | 97.4 | 0.93 |
w/o L_bm | 93.2 | 98.0 | 0.95 |
w/o T_r | 90.1 | 97.1 | 0.93 |
MLM-FT-EA | 85.2 | 95.2 | 0.89 |
结论:
- 模板、双向损失和关系信息均贡献性能(分别提升1.5%、3.8%和4.0%)。
- 实体对交互是关键(MLM-FT-EA仅提示学习无显著提升)。
泛化与互增强
- 跨语言泛化: 在SRPRS(低资源)上,TEA-MLM表现更优,说明MLM对齐器在低资源场景更有效。
- 信息互增强: 加入属性信息后,TEA在SRPRS上的关系对齐性能提升,证明统一建模可实现异构信息互增强。
误差分析与失败案例
错误类别:
- 候选集遗漏: 若真实实体未进入Top-|C|候选,重排序无法纠正。
- 语言差异: 跨语言序列语义相似但表面形式差异大时,PLM可能无法捕获蕴含关系。
边界条件:
- 实体名称缺失时性能下降(但仅属性序列仍可工作)。
- 计算开销: 重排序阶段时间成本高于嵌入方法。
复现性清单
代码与数据: 代码开源(Git链接未在摘要中提供,但论文声明可用)。
环境与依赖: PyTorch, Transformers库,Ubuntu 18.04, NVIDIA GPU。
运行命令与配置: 未详细说明。
许可证与限制: 未说明。
结论与未来工作
结论: TEA通过统一文本蕴含框架显式建模实体间交互,实现SOTA性能及异构信息互增强。未来工作:
- 提升效率: 减少重排序计算开销。
- 处理名称缺失: 探索无实体名称的对齐方法。
- 扩展应用: 适用于无监督和多模态EA场景。
时间表: 未提供。
更多推荐
所有评论(0)