2023 ACL From Alignment to Entailment A Unified Textual Entailment Framework for Entity Alignment

本文提出了一种新颖的实体对齐方法TEA，将传统嵌入学习方法转化为基于预训练语言模型的文本蕴含任务。该方法通过统一处理关系三元组和属性三元组为文本序列，利用双向文本蕴含建模实体间细粒度交互。实验表明，在DBPZH-EN等跨语言数据集上，TEA显著优于现有方法，Hits@1达到87.0%，比最佳基线提升4.4%。这一成果为知识图谱对齐提供了新范式，实现了异构信息间的相互增强。

w2698515789

1673人浏览 · 2025-08-27 11:11:17

w2698515789 · 2025-08-27 11:11:17 发布

论文地址：https://www.arxiv.org/pdf/2305.11501
发表会议：ACL（CCF-A类自然语言处理顶级会议）
该内容为笔者自己编写的agent生成用于论文内容记录！

论文基本信息

题目： From Alignment to Entailment: A Unified Textual Entailment Framework for Entity Alignment
作者： Yu Zhao, Yike Wu, Xiangrui Cai, Ying Zhang, Haiwei Zhang, Xiaojie Yuan
机构： College of Computer Science, TKLNDST, Nankai University, Tianjin, China; School of Journalism and Communication, CMRC, Nankai University, Tianjin, China; College of Cyber Science, TKLNDST, Nankai University, Tianjin, China
发表地点与年份： arXiv预印本，2023年5月
关键词术语：实体对齐（Entity Alignment）、知识图谱（Knowledge Graphs）、文本蕴含（Textual Entailment）、预训练语言模型（Pre-trained Language Models）、双向建模（Bi-directional Modeling）

摘要（详细复述）

背景：实体对齐（EA）旨在发现两个知识图谱（KGs）中的等价实体。现有方法通常将实体三元组编码为嵌入向量，并学习对齐这些嵌入，这阻碍了跨KG实体原始信息之间的直接交互。此外，它们将关系三元组和属性三元组编码在异构的嵌入空间中，导致两者无法相互增强。
方案概述：本文提出将两种三元组统一转化为文本序列，并将EA任务建模为跨KG实体序列之间的双向文本蕴含任务。具体而言，将两个实体的序列同时输入预训练语言模型（PLM），并提出了两种基于PLM的实体对齐器（NSP-Aligner和MLM-Aligner），将序列间的蕴含概率建模为实体间的相似度。
主要结果/提升：在五个跨语言EA数据集上的实验表明，该方法优于最先进的EA方法，并实现了异构信息的相互增强。具体而言，在DBPZH-EN数据集上，TEA-MLM的Hits@1达到87.0%，比基线最佳结果提升4.4%；MRR达到0.91，提升11%。
结论与意义：该方法通过统一建模关系与属性信息，显式捕获实体间的细粒度交互，为EA任务提供了新的范式。

研究背景与动机

学术/应用场景与痛点：知识图谱广泛应用于问答系统、推荐系统和信息抽取等任务。由于KG多源异构，实体对齐成为关键基础技术。现有EA方法存在两大局限：

缺乏跨KG直接交互：嵌入学习方法将原始三元组压缩为连续向量，丢失了丰富的语义信息（如属性值之间的直接兼容性）。
异构嵌入空间：关系三元组和属性三元组被编码在不同空间，导致对齐过程分离，无法相互增强。

主流路线与代表工作：

方法类别	代表工作	优点	不足
TransE-based	Chen et al. (2017)	实现简单	忽略图结构
GCN-based	Wu et al. (2019a)	建模图结构	缺乏原始信息交互
混合编码	Liu et al. (2020)	融合多源信息	异构空间阻碍互增强

问题定义（形式化）

输入：两个知识图谱 $G_1 = \{E_1, R_1, A_1, V_1, T_r^1, T_a^1\}$ 和 $G_2 = \{E_2, R_2, A_2, V_2, T_r^2, T_a^2\}$ ，其中 $T_r$ 为关系三元组集合， $T_a$ 为属性三元组集合。
输出：实体对齐映射 $\{(e, e') \mid e \in E_1, e' \in E_2\}$ 。
目标函数：通过训练种子对齐集合 $P_s$ ，学习模型以最大化对齐概率。
评测目标： Hits@K (K=1,10) 和 MRR（平均倒数排名）。

创新点

统一序列建模：将关系三元组和属性三元组转化为统一文本序列，捕获其共同关联模式。
双向文本蕴含任务转换：首次将EA任务转化为双向文本蕴含任务，利用PLM的NSP和MLM预训练任务显式建模实体间细粒度交互。
联合训练与互增强机制：通过合作训练（交替使用关系和属性序列）和双向损失函数，实现异构信息的相互增强。

方法与核心思路

整体框架

TEA框架包含以下核心步骤：

序列构建：将实体的邻居和属性值按字母序排序，构造序列 $S_r(e)$ 和 $S_a(e)$ 。
实体对输入：使用模板 $\text{[CLS]} S(e) \text{[T]} S(e')$ 组合跨KG实体序列。
注意力掩码设计：设计三种掩码模式（ $M_0$ : 全序列； $M_1$ : 仅实体 $e$ ； $M_2$ : 仅实体 $e^{'}$ ）以同时支持蕴含目标和嵌入对齐目标。
训练与推理：联合优化嵌入对齐损失和蕴含损失；推理时先基于嵌入筛选候选，再通过蕴含概率重排序。

步骤分解

序列构造：
- 关系序列： $Sr(e)="e,n1,n2,...,n∣Ne∣[SEP]"S_r(e) = "e, n_1, n_2, ..., n_{|N_e|} \text{[SEP]}"$
- 属性序列： $Sa(e)="e,v1,v2,...,v∣Ve∣[SEP]"S_a(e) = "e, v_1, v_2, ..., v_{|V_e|} \text{[SEP]}"$
实体对输入：使用模板（如硬模板 “S(e) ? [MASK]. S(e’)” 或软模板 “S(e) [MASK][P0]…[Pl] S(e’)”）构造输入序列。
注意力掩码：
- $M_0$ ：全序列可见（用于蕴含任务）
- $M_1$ / $M_2$ ：仅单实体可见（用于嵌入学习）
训练集构建：对每个种子对齐 $e, e^+)$ ，从Top相似实体中采样负例 $e^-$ 。
双向与合作训练：交替输入 $T (e, e^{'})$ 和 $T (e^{'}, e)$ ，并交替使用关系与属性序列。

模块与交互

PLM编码器：采用多语言BERT，输入为令牌化序列和掩码矩阵，输出隐藏状态 $Hm=PLM(T(e,e′);Mm)H^m = \text{PLM}(T(e, e'); M_m)$ 。
嵌入对齐模块：从 $h[CLS]h_{\text{[CLS]}}$ 提取实体嵌入 $W_{\text{emb}} h^1_{\text{[CLS]}}$ ，使用边际排名损失 $LmrL_{\text{mr}}$ 。
蕴含对齐模块：
- NSP-Aligner：使用NSP头输出 $pnsp(y∣T(e,e′))=Wnsp(tanh⁡(Wh[CLS]0+b))p_{\text{nsp}}(y|T(e, e')) = W_{\text{nsp}}(\tanh(W h^0_{\text{[CLS]}} + b))$
- MLM-Aligner：使用MLM头输出 $pmlm(y∣T(e,e′))=Wmlmh[MASK]0+bp_{\text{mlm}}(y|T(e, e')) = W_{\text{mlm}} h^0_{\text{[MASK]}} + b$
损失计算：联合优化 $L_{\text{mr}} + L_{\text{be}} + L_{\text{bm}}$ ，其中 $LbeL_{\text{be}}$ 为双向交叉熵损失， $LbmL_{\text{bm}}$ 为双向边际损失。

公式与符号

嵌入对齐损失：

$L_{\text{mr}} = \sum_{(e,e^+,e^-) \in D} \max\{0, d(e, e^+) - d(e, e^-) + m\}$

其中 $d$ 为L2距离， $m$ 为超参数边际值。
蕴含概率（NSP）：

$p_{\text{nsp}}(y|T(e, e')) = W_{\text{nsp}}(\tanh(W h^0_{\text{[CLS]}} + b))$
蕴含概率（MLM）：

$p_{\text{mlm}}(y|T(e, e')) = W_{\text{mlm}} h^0_{\text{[MASK]}} + b$
双向蕴含损失：

$L_{\text{be}} = \text{BCE}(q(y|T(e, e^+)), 1) + \text{BCE}(q(y|T(e, e^-)), 0) + \text{反向序列损失}$

伪代码

输入: 种子对齐P_s, PLM, 超参数m, δ, |C|
初始化: 负例采样器
for epoch in epochs:
    for (e, e+) in P_s:
        e- = 从Top相似实体中采样
        构造T(e, e+), T(e, e-), T(e+, e), T(e-, e)
        计算H_m = PLM(T(·); M_m)
        计算L_mr, L_be, L_bm
        L = L_mr + L_be + L_bm
        反向传播更新参数
for e in G1测试集:
    C(e) = Top-|C|相似实体（基于嵌入）
    if conf(e) < δ:
        对每个candidate in C(e)计算p+(y|T(e, candidate))
        按p+重排序
    else:
        按嵌入相似度排序

伪代码描述：训练阶段联合优化嵌入和蕴含损失；推理阶段先基于嵌入筛选候选，对低置信度样本使用蕴含概率重排序。

复杂度分析

时间复杂度：
- 训练： $O(∣Ps∣⋅L⋅d2)O(|P_s| \cdot L \cdot d^2)$ ，其中 $L$ 为序列长度， $d$ 为隐藏层维度。
- 推理：重排序部分 $O(∣E1∣⋅∣C∣⋅L⋅d2)O(|E_1| \cdot |C| \cdot L \cdot d^2)$ ，比全对比计算（ $O(∣E1∣⋅∣E2∣)O(|E_1| \cdot |E_2|)$ ）显著降低。
空间复杂度：主要开销为PLM参数（~110M for BERT-base）和实体嵌入矩阵（ $\cdot \text{emb})$ ）。

关键设计选择

文本序列转换：保留原始语义信息，直接利用PLM的语言理解能力。
双向蕴含任务：模拟人类判断实体对齐的推理过程（双向兼容性）。
联合训练策略：通过交替输入实现关系与属性信息的互增强，理论依据是多任务学习中的知识迁移。

实验设置

数据集：使用DBP15K（ZH-EN, JA-EN, FR-EN）和SRPRS（EN-FR, EN-DE），统计信息如表2所示。数据划分： 30%训练，70%测试（与之前研究一致）。对比基线：

组1（关系+实体名）： RDGCN, HGCN, CEA
组2（关系+属性+实体名）： AttrGNN, BERT-INT(name), SDEA
消融基线： FT-EA（无蕴含目标）, TEA w/o T_a（无属性）
评价指标： Hits@1, Hits@10, MRR。
实现细节：
PLM：多语言BERT（Devlin et al., 2019）
框架： PyTorch + Transformers
硬件： NVIDIA A6000 (48GB)
超参数：边际值 $m = 1.0$ ，嵌入维度 $e mb = 256$ ，候选数 $∣ C ∣ = 256$ ，阈值 $δ=0.9\delta=0.9$
训练：早停（3轮无提升），批量大小未说明

实验结果与分析

主结果表

方法	DBPZH-EN Hits@1	Hits@10	MRR	DBPJA-EN Hits@1	Hits@10	MRR	DBPFR-EN Hits@1	Hits@10	MRR	SRPRSEN-FR Hits@1	Hits@10	MRR	SRPRSEN-DE Hits@1	Hits@10	MRR
组1: 关系+实体名
RDGCN	84.2	91.0	0.75	86.3	90.8	0.81	95.8	99.3	0.90	67.2	76.7	0.71	77.9	88.6	0.82
HGCN	84.0	95.3	0.76	75.8	96.7	0.81	67.0	99.5	0.91	67.0	77.0	0.71	76.3	86.3	0.80
CEA	85.4	95.7	0.77	78.5	96.6	0.83	93.3	99.4	0.95	97.4	98.8	0.95	94.5	98.0	0.96
组2: 关系+属性+实体名
AttrGNN	79.6	92.9	0.85	78.3	92.1	0.83	91.9	97.8	0.91	98.7	99.2	0.99	96.9	98.8	0.97
BERT-INT(name)	81.4	83.5	0.82	80.6	83.5	0.82	98.7	99.2	0.99	95.7	97.5	0.97	96.8	98.9	0.97
SDEA	87.0	96.6	0.91	84.8	95.2	0.89	96.9	99.5	0.97	97.1	98.6	0.97	96.6	98.6	0.97
FT-EA	67.5	78.7	0.76	69.7	88.9	0.77	68.9	89.7	0.77	89.0	95.0	0.92	88.3	95.9	0.91
TEA-NSP	81.5	94.1	0.96	71.9	93.4	0.89	70.8	97.9	0.96	89.0	99.1	0.98	71.9	99.1	0.98
TEA-MLM	83.1	93.5	0.95	78.7	97.8	0.95	71.9	97.8	0.95	88.3	99.6	0.98	70.8	99.6	0.98