2017 ijcai Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment

本文提出MTransE模型，通过多语言知识图嵌入实现跨语言知识对齐。针对现有跨语言对齐覆盖不足的问题，该模型为每种语言分配独立嵌入空间，并学习跨语言转换函数，同时保留单语嵌入功能。实验表明，线性变换变体在实体匹配（Hits@10达68.53%）和三重对齐验证（准确率94.90%）任务上表现最优，显著优于基线方法。该研究为知识库补全和跨语言应用提供了自动化的解决方案。

w2698515789

922人浏览 · 2025-09-01 20:09:25

w2698515789 · 2025-09-01 20:09:25 发布

论文基本信息

题目： Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment
作者： Muhao Chen, Yingtao Tian, Mohan Yang, Carlo Zaniolo
机构： 1. Department of Computer Science, UCLA; 2. Department of Computer Science, Stony Brook University
发表地点与年份： Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17), 2017
关键词术语：

Knowledge Graph Embeddings
Cross-lingual Knowledge Alignment
Multilingual Knowledge Graphs
Translation-based Models
Entity Matching
Triple-wise Alignment Verification

摘要（详细复述）

背景：多语言知识库（如 Wikipedia、WordNet、ConceptNet）已成为人工智能应用的重要知识源，但跨语言知识对齐（如实体匹配和关系对齐）覆盖不足（例如 Wikipedia 中仅 15% 的实体有跨语言链接），人工对齐成本高且易出错。
方案概述：提出 MTransE，一种基于翻译的多语言知识图嵌入模型，通过为每种语言分配独立的嵌入空间，并学习跨语言转换（transition），同时保留单语嵌入的功能性。部署三种跨语言转换技术：轴校准（axis calibration）、翻译向量（translation vectors）和线性变换（linear transformations），衍生出五种变体。
主要结果/提升：

在跨语言实体匹配任务中，线性变换变体（Var4 和 Var5）在 WK3l-15k 和 WK3l-120k 数据集上取得最佳性能（Hits@10 最高达 68.53%）。
在三元组对齐验证任务中，线性变换变体准确率最高（94.90%），显著优于基线方法（如 LM 和 CCA）。
在单语任务（如尾实体预测和关系预测）中，MTransE 变体性能与单语 TransE 相当甚至更优。
结论与意义： MTransE 为跨语言知识对齐提供了简单自动的解决方案，可扩展至多语言场景，并为知识库补全和跨语言应用奠定基础。

研究背景与动机

学术/应用场景与痛点：

多语言知识库（如 Wikipedia）包含单语知识（实体和关系三元组）和跨语言知识（实体间链接和关系对齐），但跨语言对齐覆盖低（<15%），且人工对齐成本高。
嵌入技术（如 TransE）已成功用于单语知识图补全，但跨语言对齐面临挑战：
- 跨语言转换域远大于单语关系翻译。
- 实体和关系的词汇在不同语言间不一致。
- 对齐数据通常仅占知识库一小部分。

主流路线与局限：

方法类别	代表工作	优点	不足
知识图嵌入	TransE, TransH, TransR	简单高效，支持关系推理	仅处理单语，未考虑跨语言对齐
多语言词嵌入	LM, CCA, OT	可从平行语料学习跨语言映射	依赖文本并行性，不直接适用于知识图结构
知识库对齐	Wikidata, DBpedia, YAGO	可生成高质量对齐	依赖众包或手工特征，成本高且泛化性差

问题定义（形式化）

输入：

多语言知识库 $K B$ ，包含语言集合 $L$ ，每种语言 $Li∈LL_i \in L$ 对应知识图 $G_{L_i} = (E_{L_i}, R_{L_i}, T_{L_i})$ ，其中 $E_{L_i}$ 为实体集合， $R_{L_i}$ 为关系集合， $T_{L_i}$ 为三元组集合。
对齐集合 $δ(Li,Lj)\delta(L_i, L_j)$ ：包含已对齐的三元组对 $(T, T^{'})$ ，其中 $\in G_{L_i}$ , $\in G_{L_j}$ 。

输出：

每种语言 $L_i$ 的实体和关系嵌入向量： $e∈Rk\mathbf{e} \in \mathbb{R}^{k}$ （ $\in E_{L_i}$ ）， $r∈Rk\mathbf{r} \in \mathbb{R}^{k}$ （ $\in R_{L_i}$ ）。
跨语言转换函数 $τij\tau_{ij}$ ：将语言 $L_i$ 的嵌入向量映射到 $L_j$ 的嵌入空间。

目标函数：最小化损失函数 $S_K + \alpha S_A$ ，其中：

$S_K$ 为单语知识模型损失（保留图结构）。
$S_A$ 为对齐模型损失（学习跨语言转换）。
$α\alpha$ 为超参数权重。

评测目标：

跨语言实体匹配：给定实体 $e$ 在语言 $L_i$ ，查找其在 $L_j$ 的对应实体 $e^{'}$ 。
三元组对齐验证：判断一对三元组 $(T, T^{'})$ 是否正确对齐。
单语任务：尾实体预测（给定 $(h, r)$ 预测 $t$ ）和关系预测（给定 $(h, t)$ 预测 $r$ ）。

创新点（逐条可验证）

多语言知识图嵌入框架：首次将翻译模型扩展到多语言场景，通过分离语言特定嵌入空间和跨语言转换函数，同时保留单语关系语义和跨语言对齐能力。
- 如何做：为每种语言分配独立嵌入空间，使用 TransE 作为知识模型，并设计三种对齐模型（轴校准、翻译向量、线性变换）。
- 为什么有效：分离空间避免语言间干扰，对齐模型利用少量对齐数据学习一致映射。
部分对齐训练机制：模型可在仅部分三元组对齐的情况下训练，无需全对齐知识库。
- 如何做：损失函数 $S_A$ 仅基于已知对齐对，通过梯度下降联合优化 $S_K$ 和 $S_A$ 。
- 为什么有效：正则化单语嵌入空间，提升跨语言泛化性。
多技术跨语言转换比较：系统比较三种转换技术（轴校准、翻译向量、线性变换），并衍生五种变体，通过实验确定线性变换最优。
- 如何做：定义五种损失函数 $Sa_1$ 到 $Sa_5$ ，对应不同转换假设。
- 为什么有效：线性变换（Var4/Var5）灵活捕捉嵌入空间拓扑变换，不受空间结构相似性假设限制。

方法与核心思路

整体框架

MTransE 由两个核心组件构成：

知识模型（Knowledge Model）：为每种语言 $L_i$ 学习单语嵌入空间，使用 TransE 损失函数保留三元组结构。
对齐模型（Alignment Model）：基于已知对齐三元组对，学习跨语言转换函数 $τij\tau_{ij}$ ，支持三种技术实现。

步骤分解

嵌入空间初始化：为每种语言 $L_i$ 随机初始化实体和关系嵌入向量（单位球面均匀分布）。
知识模型训练：最小化 TransE 损失 $S_K$ ，确保单语三元组满足 $h+r≈t\mathbf{h} + \mathbf{r} \approx \mathbf{t}$ 。
对齐模型训练：最小化对齐损失 $S_A$ ，学习跨语言转换参数（如翻译向量或线性矩阵）。
交替优化：在每个 epoch 中交替更新 $S_K$ 和 $αSA\alpha S_A$ 的梯度。
推断应用：使用学习到的转换函数 $τij\tau_{ij}$ 执行跨语言任务（如 kNN 搜索）。

模块与交互

知识模型模块：
- 输入：单语三元组 $\in G_{L_i}$ 。
- 输出：实体和关系嵌入向量 $h,r,t∈Rk\mathbf{h}, \mathbf{r}, \mathbf{t} \in \mathbb{R}^k$ 。
- 功能：通过损失 $SK=∑L∈{Li,Lj}∑(h,r,t)∈GL∥h+r−t∥S_K = \sum_{L \in \{L_i, L_j\}} \sum_{(h,r,t) \in G_L} \|\mathbf{h} + \mathbf{r} - \mathbf{t}\|$ 保留图结构。
对齐模型模块：
- 输入：对齐三元组对 $\in \delta(L_i, L_j)$ 。
- 输出：转换参数（如翻译向量 $veij\mathbf{v}_{e}^{ij}$ 或线性矩阵 $Meij\mathbf{M}_{e}^{ij}$ ）。
- 功能：通过最小化 $SA=∑(T,T′)Sa(T,T′)S_A = \sum_{(T,T')} Sa(T, T')$ 学习跨语言映射。
- 依赖：知识模型提供的嵌入向量作为输入。

公式与符号

知识模型损失：

$S_K = \sum_{L \in \{L_i, L_j\}} \sum_{(h,r,t) \in G_L} \|\mathbf{h} + \mathbf{r} - \mathbf{t}\|$

对齐模型损失（五种变体）：

轴校准（距离基础）：

$Sa_1 = \|\mathbf{h} - \mathbf{h}'\| + \|\mathbf{t} - \mathbf{t}'\|$

$Sa_2 = \|\mathbf{h} - \mathbf{h}'\| + \|\mathbf{r} - \mathbf{r}'\| + \|\mathbf{t} - \mathbf{t}'\|$
翻译向量：

$Sa_3 = \|\mathbf{h} + \mathbf{v}_e^{ij} - \mathbf{h}'\| + \|\mathbf{r} + \mathbf{v}_r^{ij} - \mathbf{r}'\| + \|\mathbf{t} + \mathbf{v}_e^{ij} - \mathbf{t}'\|$
线性变换：

$Sa_4 = \|\mathbf{M}_e^{ij} \mathbf{h} - \mathbf{h}'\| + \|\mathbf{M}_e^{ij} \mathbf{t} - \mathbf{t}'\|$

$Sa_5 = \|\mathbf{M}_e^{ij} \mathbf{h} - \mathbf{h}'\| + \|\mathbf{M}_r^{ij} \mathbf{r} - \mathbf{r}'\| + \|\mathbf{M}_e^{ij} \mathbf{t} - \mathbf{t}'\|$

符号说明：

$h,r,t\mathbf{h}, \mathbf{r}, \mathbf{t}$ ：头实体、关系、尾实体的嵌入向量。
$veij,vrij\mathbf{v}_e^{ij}, \mathbf{v}_r^{ij}$ ：从语言 $L_i$ 到 $L_j$ 的实体和关系翻译向量。
$Meij,Mrij\mathbf{M}_e^{ij}, \mathbf{M}_r^{ij}$ ：从语言 $L_i$ 到 $L_j$ 的实体和关系线性变换矩阵（ $\times k$ ）。
$∥⋅∥\|\cdot\|$ ： $l_1$ 或 $l_2$ 范数（实验中选择）。

伪代码

初始化所有实体和关系嵌入向量（单位球面均匀分布）
初始化对齐模型参数（如翻译向量或矩阵）
for epoch = 1 to N do
    for each batch in 知识模型数据 do
        计算损失 S_K = ∑‖h + r - t‖
        更新参数：θ ← θ - η ∇S_K
    end for
    for each batch in 对齐模型数据 do
        计算损失 S_A = ∑Sa(T, T')
        更新参数：θ ← θ - η α ∇S_A
    end for
    强制实体嵌入向量单位范数（正则化）
end for

伪代码描述：采用随机梯度下降交替优化知识模型和对齐模型损失，每步更新后对实体嵌入进行单位范数约束以避免退化。

复杂度分析

时间复杂度：
- 知识模型： $\cdot k)$ ，其中 $∣ T ∣$ 为三元组数量， $k$ 为嵌入维度。
- 对齐模型： $O(∣δ∣⋅k)O(|\delta| \cdot k)$ （Var1-3）或 $O(∣δ∣⋅k2)O(|\delta| \cdot k^2)$ （Var4-5）， $∣δ∣|\delta|$ 为对齐对数量。
空间复杂度：
- 实体和关系嵌入： $\cdot k \cdot |L|)$ 。
- 对齐参数：Var3 为 $O(∣L∣2⋅k)O(|L|^2 \cdot k)$ ，Var4 为 $O(∣L∣2⋅k2)O(|L|^2 \cdot k^2)$ ，Var5 为 $O(∣L∣2⋅2k2)O(|L|^2 \cdot 2k^2)$ 。
搜索复杂度：
- 跨语言实体匹配：kNN 搜索 $\cdot k)$ （Var1-3）或 $\cdot k^2)$ （Var4-5）。

关键设计选择

分离嵌入空间：避免语言间干扰，允许独立优化单语结构。
单位范数约束：防止训练崩溃，确保线性变换可逆（对 Var4/Var5 关键）。
交替训练：平衡知识保留和对齐学习，避免对齐噪声破坏单语语义。
多技术比较：通过实验验证线性变换最适合跨语言转换，因其不假设空间结构相似性。

实验设置

数据集：

WK3l-15k 和 WK3l-120k（英语、法语、德语），从 DBpedia dbo:Person 域提取。
统计信息：

数据集	#En 三元组	#Fr 三元组	#De 三元组	#对齐三元组（En-Fr/En-De）
WK3l-15k	203,502	170,605	145,616	16,470 / 37,170
WK3l-120k	1,376,011	767,750	391,108	124,433 / 69,413

额外实体 ILLs 用于评估（见表 3 原文）。

对比基线：

LM [Mikolov et al., 2013]：线性变换跨语言映射。
CCA [Faruqui and Dyer, 2014]：典型相关分析。
OT [Xing et al., 2015]：正交变换联合训练。

评价指标：

实体匹配：Hits@10（排名前10命中比例）、Mean（平均倒数排名）。
三元组对齐验证：准确率（二分类）。
单语任务：Hits@10（尾实体和关系预测）。

实现细节：

框架：未说明（基于 SGD 自行实现）。
硬件：未说明。
超参数：学习率 $η∈{0.001,0.01,0.1}\eta \in \{0.001, 0.01, 0.1\}$ ， $α∈{1,2.5,5,7.5}\alpha \in \{1, 2.5, 5, 7.5\}$ ， $\in \{50, 75, 100, 125\}$ ，范数（ $l_1$ 或 $l_2$ ）。
最佳配置：WK3l-15k： $η=0.01\eta=0.01$ , $α=5\alpha=5$ , $k = 75$ , $l_1$ （Var1,Var2,LM,CCA）, $l_2$ （其他）；WK3l-120k： $η=0.01\eta=0.01$ , $α=5\alpha=5$ , $k = 100$ , $l_2$ （所有）。
训练时长：400 epochs，未说明具体耗时。
随机性：初始化种子未说明。

实验结果与分析

主结果表

跨语言实体匹配（Hits@10 %）：

方法	WK3l-15k (En-Fr)	WK3l-15k (En-De)	WK3l-120k (En-Fr)	WK3l-120k (En-De)
LM	22.17	22.30	11.74	24.52
CCA	26.46	22.30	19.47	25.54
OT	44.47	49.24	38.91	38.85
Var1	48.67	50.60	38.58	42.06
Var2	46.27	49.00	31.88	41.22
Var3	50.82	52.16	38.26	50.48
Var4	66.25	68.53	48.66	57.56
Var5	60.25	66.03	45.65	64.22

三元组对齐验证（准确率 %）：

方法	WK3l-15k (En&Fr)	WK3l-15k (En&De)	WK3l-120k (En&Fr)	WK3l-120k (En&De)
LM	52.23	63.61	59.98	59.98
CCA	52.28	66.49	65.89	61.01
OT	93.20	87.97	88.65	85.24
Var1	93.25	91.24	91.27	91.35
Var2	90.24	86.59	89.36	86.29
Var3	90.38	84.24	87.99	87.04
Var4	94.58	95.03	93.48	93.06
Var5	94.90	94.95	92.63	93.66