2017 ijcai Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment
本文提出MTransE模型,通过多语言知识图嵌入实现跨语言知识对齐。针对现有跨语言对齐覆盖不足的问题,该模型为每种语言分配独立嵌入空间,并学习跨语言转换函数,同时保留单语嵌入功能。实验表明,线性变换变体在实体匹配(Hits@10达68.53%)和三重对齐验证(准确率94.90%)任务上表现最优,显著优于基线方法。该研究为知识库补全和跨语言应用提供了自动化的解决方案。
论文基本信息
题目: Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment
作者: Muhao Chen, Yingtao Tian, Mohan Yang, Carlo Zaniolo
机构: 1. Department of Computer Science, UCLA; 2. Department of Computer Science, Stony Brook University
发表地点与年份: Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17), 2017
关键词术语:
- Knowledge Graph Embeddings
- Cross-lingual Knowledge Alignment
- Multilingual Knowledge Graphs
- Translation-based Models
- Entity Matching
- Triple-wise Alignment Verification
摘要(详细复述)
背景: 多语言知识库(如 Wikipedia、WordNet、ConceptNet)已成为人工智能应用的重要知识源,但跨语言知识对齐(如实体匹配和关系对齐)覆盖不足(例如 Wikipedia 中仅 15% 的实体有跨语言链接),人工对齐成本高且易出错。
方案概述: 提出 MTransE,一种基于翻译的多语言知识图嵌入模型,通过为每种语言分配独立的嵌入空间,并学习跨语言转换(transition),同时保留单语嵌入的功能性。部署三种跨语言转换技术:轴校准(axis calibration)、翻译向量(translation vectors)和线性变换(linear transformations),衍生出五种变体。
主要结果/提升:
- 在跨语言实体匹配任务中,线性变换变体(Var4 和 Var5)在 WK3l-15k 和 WK3l-120k 数据集上取得最佳性能(Hits@10 最高达 68.53%)。
- 在三元组对齐验证任务中,线性变换变体准确率最高(94.90%),显著优于基线方法(如 LM 和 CCA)。
- 在单语任务(如尾实体预测和关系预测)中,MTransE 变体性能与单语 TransE 相当甚至更优。
结论与意义: MTransE 为跨语言知识对齐提供了简单自动的解决方案,可扩展至多语言场景,并为知识库补全和跨语言应用奠定基础。
研究背景与动机
学术/应用场景与痛点:
- 多语言知识库(如 Wikipedia)包含单语知识(实体和关系三元组)和跨语言知识(实体间链接和关系对齐),但跨语言对齐覆盖低(<15%),且人工对齐成本高。
- 嵌入技术(如 TransE)已成功用于单语知识图补全,但跨语言对齐面临挑战:
- 跨语言转换域远大于单语关系翻译。
- 实体和关系的词汇在不同语言间不一致。
- 对齐数据通常仅占知识库一小部分。
主流路线与局限:
方法类别 | 代表工作 | 优点 | 不足 |
---|---|---|---|
知识图嵌入 | TransE, TransH, TransR | 简单高效,支持关系推理 | 仅处理单语,未考虑跨语言对齐 |
多语言词嵌入 | LM, CCA, OT | 可从平行语料学习跨语言映射 | 依赖文本并行性,不直接适用于知识图结构 |
知识库对齐 | Wikidata, DBpedia, YAGO | 可生成高质量对齐 | 依赖众包或手工特征,成本高且泛化性差 |
问题定义(形式化)
输入:
- 多语言知识库 KBKBKB,包含语言集合 LLL,每种语言 Li∈LL_i \in LLi∈L 对应知识图 GLi=(ELi,RLi,TLi)G_{L_i} = (E_{L_i}, R_{L_i}, T_{L_i})GLi=(ELi,RLi,TLi),其中 ELiE_{L_i}ELi 为实体集合,RLiR_{L_i}RLi 为关系集合,TLiT_{L_i}TLi 为三元组集合。
- 对齐集合 δ(Li,Lj)\delta(L_i, L_j)δ(Li,Lj):包含已对齐的三元组对 (T,T′)(T, T')(T,T′),其中 T∈GLiT \in G_{L_i}T∈GLi, T′∈GLjT' \in G_{L_j}T′∈GLj。
输出:
- 每种语言 LiL_iLi 的实体和关系嵌入向量:e∈Rk\mathbf{e} \in \mathbb{R}^{k}e∈Rk(e∈ELie \in E_{L_i}e∈ELi),r∈Rk\mathbf{r} \in \mathbb{R}^{k}r∈Rk(r∈RLir \in R_{L_i}r∈RLi)。
- 跨语言转换函数 τij\tau_{ij}τij:将语言 LiL_iLi 的嵌入向量映射到 LjL_jLj 的嵌入空间。
目标函数: 最小化损失函数 J=SK+αSAJ = S_K + \alpha S_AJ=SK+αSA,其中:
- SKS_KSK 为单语知识模型损失(保留图结构)。
- SAS_ASA 为对齐模型损失(学习跨语言转换)。
- α\alphaα 为超参数权重。
评测目标:
- 跨语言实体匹配:给定实体 eee 在语言 LiL_iLi,查找其在 LjL_jLj 的对应实体 e′e'e′。
- 三元组对齐验证:判断一对三元组 (T,T′)(T, T')(T,T′) 是否正确对齐。
- 单语任务:尾实体预测(给定 (h,r)(h, r)(h,r) 预测 ttt)和关系预测(给定 (h,t)(h, t)(h,t) 预测 rrr)。
创新点(逐条可验证)
-
多语言知识图嵌入框架: 首次将翻译模型扩展到多语言场景,通过分离语言特定嵌入空间和跨语言转换函数,同时保留单语关系语义和跨语言对齐能力。
- 如何做: 为每种语言分配独立嵌入空间,使用 TransE 作为知识模型,并设计三种对齐模型(轴校准、翻译向量、线性变换)。
- 为什么有效: 分离空间避免语言间干扰,对齐模型利用少量对齐数据学习一致映射。
-
部分对齐训练机制: 模型可在仅部分三元组对齐的情况下训练,无需全对齐知识库。
- 如何做: 损失函数 SAS_ASA 仅基于已知对齐对,通过梯度下降联合优化 SKS_KSK 和 SAS_ASA。
- 为什么有效: 正则化单语嵌入空间,提升跨语言泛化性。
-
多技术跨语言转换比较: 系统比较三种转换技术(轴校准、翻译向量、线性变换),并衍生五种变体,通过实验确定线性变换最优。
- 如何做: 定义五种损失函数 Sa1Sa_1Sa1 到 Sa5Sa_5Sa5,对应不同转换假设。
- 为什么有效: 线性变换(Var4/Var5)灵活捕捉嵌入空间拓扑变换,不受空间结构相似性假设限制。
方法与核心思路
整体框架
MTransE 由两个核心组件构成:
- 知识模型(Knowledge Model): 为每种语言 LiL_iLi 学习单语嵌入空间,使用 TransE 损失函数保留三元组结构。
- 对齐模型(Alignment Model): 基于已知对齐三元组对,学习跨语言转换函数 τij\tau_{ij}τij,支持三种技术实现。
步骤分解
- 嵌入空间初始化: 为每种语言 LiL_iLi 随机初始化实体和关系嵌入向量(单位球面均匀分布)。
- 知识模型训练: 最小化 TransE 损失 SKS_KSK,确保单语三元组满足 h+r≈t\mathbf{h} + \mathbf{r} \approx \mathbf{t}h+r≈t。
- 对齐模型训练: 最小化对齐损失 SAS_ASA,学习跨语言转换参数(如翻译向量或线性矩阵)。
- 交替优化: 在每个 epoch 中交替更新 SKS_KSK 和 αSA\alpha S_AαSA 的梯度。
- 推断应用: 使用学习到的转换函数 τij\tau_{ij}τij 执行跨语言任务(如 kNN 搜索)。
模块与交互
-
知识模型模块:
- 输入: 单语三元组 (h,r,t)∈GLi(h, r, t) \in G_{L_i}(h,r,t)∈GLi。
- 输出: 实体和关系嵌入向量 h,r,t∈Rk\mathbf{h}, \mathbf{r}, \mathbf{t} \in \mathbb{R}^kh,r,t∈Rk。
- 功能: 通过损失 SK=∑L∈{Li,Lj}∑(h,r,t)∈GL∥h+r−t∥S_K = \sum_{L \in \{L_i, L_j\}} \sum_{(h,r,t) \in G_L} \|\mathbf{h} + \mathbf{r} - \mathbf{t}\|SK=∑L∈{Li,Lj}∑(h,r,t)∈GL∥h+r−t∥ 保留图结构。
-
对齐模型模块:
- 输入: 对齐三元组对 (T,T′)∈δ(Li,Lj)(T, T') \in \delta(L_i, L_j)(T,T′)∈δ(Li,Lj)。
- 输出: 转换参数(如翻译向量 veij\mathbf{v}_{e}^{ij}veij 或线性矩阵 Meij\mathbf{M}_{e}^{ij}Meij)。
- 功能: 通过最小化 SA=∑(T,T′)Sa(T,T′)S_A = \sum_{(T,T')} Sa(T, T')SA=∑(T,T′)Sa(T,T′) 学习跨语言映射。
- 依赖: 知识模型提供的嵌入向量作为输入。
公式与符号
知识模型损失:
SK=∑L∈{Li,Lj}∑(h,r,t)∈GL∥h+r−t∥ S_K = \sum_{L \in \{L_i, L_j\}} \sum_{(h,r,t) \in G_L} \|\mathbf{h} + \mathbf{r} - \mathbf{t}\| SK=L∈{Li,Lj}∑(h,r,t)∈GL∑∥h+r−t∥
对齐模型损失(五种变体):
-
轴校准(距离基础):
Sa1=∥h−h′∥+∥t−t′∥ Sa_1 = \|\mathbf{h} - \mathbf{h}'\| + \|\mathbf{t} - \mathbf{t}'\| Sa1=∥h−h′∥+∥t−t′∥
Sa2=∥h−h′∥+∥r−r′∥+∥t−t′∥ Sa_2 = \|\mathbf{h} - \mathbf{h}'\| + \|\mathbf{r} - \mathbf{r}'\| + \|\mathbf{t} - \mathbf{t}'\| Sa2=∥h−h′∥+∥r−r′∥+∥t−t′∥
-
翻译向量:
Sa3=∥h+veij−h′∥+∥r+vrij−r′∥+∥t+veij−t′∥ Sa_3 = \|\mathbf{h} + \mathbf{v}_e^{ij} - \mathbf{h}'\| + \|\mathbf{r} + \mathbf{v}_r^{ij} - \mathbf{r}'\| + \|\mathbf{t} + \mathbf{v}_e^{ij} - \mathbf{t}'\| Sa3=∥h+veij−h′∥+∥r+vrij−r′∥+∥t+veij−t′∥
-
线性变换:
Sa4=∥Meijh−h′∥+∥Meijt−t′∥ Sa_4 = \|\mathbf{M}_e^{ij} \mathbf{h} - \mathbf{h}'\| + \|\mathbf{M}_e^{ij} \mathbf{t} - \mathbf{t}'\| Sa4=∥Meijh−h′∥+∥Meijt−t′∥
Sa5=∥Meijh−h′∥+∥Mrijr−r′∥+∥Meijt−t′∥ Sa_5 = \|\mathbf{M}_e^{ij} \mathbf{h} - \mathbf{h}'\| + \|\mathbf{M}_r^{ij} \mathbf{r} - \mathbf{r}'\| + \|\mathbf{M}_e^{ij} \mathbf{t} - \mathbf{t}'\| Sa5=∥Meijh−h′∥+∥Mrijr−r′∥+∥Meijt−t′∥
符号说明:
- h,r,t\mathbf{h}, \mathbf{r}, \mathbf{t}h,r,t:头实体、关系、尾实体的嵌入向量。
- veij,vrij\mathbf{v}_e^{ij}, \mathbf{v}_r^{ij}veij,vrij:从语言 LiL_iLi 到 LjL_jLj 的实体和关系翻译向量。
- Meij,Mrij\mathbf{M}_e^{ij}, \mathbf{M}_r^{ij}Meij,Mrij:从语言 LiL_iLi 到 LjL_jLj 的实体和关系线性变换矩阵(k×kk \times kk×k)。
- ∥⋅∥\|\cdot\|∥⋅∥:l1l_1l1 或 l2l_2l2 范数(实验中选择)。
伪代码
初始化所有实体和关系嵌入向量(单位球面均匀分布)
初始化对齐模型参数(如翻译向量或矩阵)
for epoch = 1 to N do
for each batch in 知识模型数据 do
计算损失 S_K = ∑‖h + r - t‖
更新参数:θ ← θ - η ∇S_K
end for
for each batch in 对齐模型数据 do
计算损失 S_A = ∑Sa(T, T')
更新参数:θ ← θ - η α ∇S_A
end for
强制实体嵌入向量单位范数(正则化)
end for
伪代码描述: 采用随机梯度下降交替优化知识模型和对齐模型损失,每步更新后对实体嵌入进行单位范数约束以避免退化。
复杂度分析
- 时间复杂度:
- 知识模型:O(∣T∣⋅k)O(|T| \cdot k)O(∣T∣⋅k),其中 ∣T∣|T|∣T∣ 为三元组数量,kkk 为嵌入维度。
- 对齐模型:O(∣δ∣⋅k)O(|\delta| \cdot k)O(∣δ∣⋅k)(Var1-3)或 O(∣δ∣⋅k2)O(|\delta| \cdot k^2)O(∣δ∣⋅k2)(Var4-5),∣δ∣|\delta|∣δ∣ 为对齐对数量。
- 空间复杂度:
- 实体和关系嵌入:O((∣E∣+∣R∣)⋅k⋅∣L∣)O((|E| + |R|) \cdot k \cdot |L|)O((∣E∣+∣R∣)⋅k⋅∣L∣)。
- 对齐参数:Var3 为 O(∣L∣2⋅k)O(|L|^2 \cdot k)O(∣L∣2⋅k),Var4 为 O(∣L∣2⋅k2)O(|L|^2 \cdot k^2)O(∣L∣2⋅k2),Var5 为 O(∣L∣2⋅2k2)O(|L|^2 \cdot 2k^2)O(∣L∣2⋅2k2)。
- 搜索复杂度:
- 跨语言实体匹配:kNN 搜索 O(∣E∣⋅k)O(|E| \cdot k)O(∣E∣⋅k)(Var1-3)或 O(∣E∣⋅k2)O(|E| \cdot k^2)O(∣E∣⋅k2)(Var4-5)。
关键设计选择
- 分离嵌入空间: 避免语言间干扰,允许独立优化单语结构。
- 单位范数约束: 防止训练崩溃,确保线性变换可逆(对 Var4/Var5 关键)。
- 交替训练: 平衡知识保留和对齐学习,避免对齐噪声破坏单语语义。
- 多技术比较: 通过实验验证线性变换最适合跨语言转换,因其不假设空间结构相似性。
实验设置
数据集:
- WK3l-15k 和 WK3l-120k(英语、法语、德语),从 DBpedia dbo:Person 域提取。
- 统计信息:
数据集 | #En 三元组 | #Fr 三元组 | #De 三元组 | #对齐三元组(En-Fr/En-De) |
---|---|---|---|---|
WK3l-15k | 203,502 | 170,605 | 145,616 | 16,470 / 37,170 |
WK3l-120k | 1,376,011 | 767,750 | 391,108 | 124,433 / 69,413 |
- 额外实体 ILLs 用于评估(见表 3 原文)。
对比基线:
- LM [Mikolov et al., 2013]:线性变换跨语言映射。
- CCA [Faruqui and Dyer, 2014]:典型相关分析。
- OT [Xing et al., 2015]:正交变换联合训练。
评价指标:
- 实体匹配:Hits@10(排名前10命中比例)、Mean(平均倒数排名)。
- 三元组对齐验证:准确率(二分类)。
- 单语任务:Hits@10(尾实体和关系预测)。
实现细节:
- 框架:未说明(基于 SGD 自行实现)。
- 硬件:未说明。
- 超参数:学习率 η∈{0.001,0.01,0.1}\eta \in \{0.001, 0.01, 0.1\}η∈{0.001,0.01,0.1},α∈{1,2.5,5,7.5}\alpha \in \{1, 2.5, 5, 7.5\}α∈{1,2.5,5,7.5},k∈{50,75,100,125}k \in \{50, 75, 100, 125\}k∈{50,75,100,125},范数(l1l_1l1 或 l2l_2l2)。
- 最佳配置:WK3l-15k:η=0.01\eta=0.01η=0.01, α=5\alpha=5α=5, k=75k=75k=75, l1l_1l1(Var1,Var2,LM,CCA), l2l_2l2(其他);WK3l-120k:η=0.01\eta=0.01η=0.01, α=5\alpha=5α=5, k=100k=100k=100, l2l_2l2(所有)。
- 训练时长:400 epochs,未说明具体耗时。
- 随机性:初始化种子未说明。
实验结果与分析
主结果表
跨语言实体匹配(Hits@10 %):
方法 | WK3l-15k (En-Fr) | WK3l-15k (En-De) | WK3l-120k (En-Fr) | WK3l-120k (En-De) |
---|---|---|---|---|
LM | 22.17 | 22.30 | 11.74 | 24.52 |
CCA | 26.46 | 22.30 | 19.47 | 25.54 |
OT | 44.47 | 49.24 | 38.91 | 38.85 |
Var1 | 48.67 | 50.60 | 38.58 | 42.06 |
Var2 | 46.27 | 49.00 | 31.88 | 41.22 |
Var3 | 50.82 | 52.16 | 38.26 | 50.48 |
Var4 | 66.25 | 68.53 | 48.66 | 57.56 |
Var5 | 60.25 | 66.03 | 45.65 | 64.22 |
三元组对齐验证(准确率 %):
方法 | WK3l-15k (En&Fr) | WK3l-15k (En&De) | WK3l-120k (En&Fr) | WK3l-120k (En&De) |
---|---|---|---|---|
LM | 52.23 | 63.61 | 59.98 | 59.98 |
CCA | 52.28 | 66.49 | 65.89 | 61.01 |
OT | 93.20 | 87.97 | 88.65 | 85.24 |
Var1 | 93.25 | 91.24 | 91.27 | 91.35 |
Var2 | 90.24 | 86.59 | 89.36 | 86.29 |
Var3 | 90.38 | 84.24 | 87.99 | 87.04 |
Var4 | 94.58 | 95.03 | 93.48 | 93.06 |
Var5 | 94.90 | 94.95 | 92.63 | 93.66 |
单语任务(Hits@10 %):
- 尾实体预测:Var4 和 Var5 在多数设置下与 TransE 相当(差异 <2%)。
- 关系预测:Var4 和 Var5 部分超过 TransE(如 WK3l-15k En: TransE 61.79, Var5 64.79)。
消融实验:
- 未明确消融,但通过变体比较隐含组件贡献:
- Var2(关系轴校准)性能下降,表明关系对齐干扰实体映射。
- Var3(翻译向量)不如线性变换,因未区分跨语言转换与单语关系。
泛化/鲁棒性:
- 线性变换变体(Var4/Var5)在稀疏德语图上仍保持最佳,显示对图密度不敏感。
误差分析与失败案例
错误类别:
- 实体匹配错误:主要发生在低频实体或关系上,因嵌入学习不充分。
- 三元组验证错误:多对多关系(如 “author_of”)易误判,因转换后向量空间重叠。
成因假设:
- 稀疏语言(如德语)三元组少,导致嵌入质量低。
- 对齐数据不足(仅部分三元组对齐)限制转换函数学习。
边界条件:
- 当前模型假设对齐三元组共享相同关系语义,但实际中关系表达可能因文化差异略有不同(未建模)。
复现性清单
代码/数据: 未提供公开代码;数据集基于 DBpedia 构建,但未提供处理脚本。
模型权重: 未发布。
环境与依赖: 未说明。
运行命令: 未提供。
配置文件: 未提供。
评测脚本: 未提供。
许可证与限制: 未说明。
结论与未来工作
可推广性:
- MTransE 可扩展至任意语言对,只需定义对应对齐集合。
- 线性变换技术可整合到其他嵌入模型(如 TransH、TransR)。
后续方向:
- 替换 TransE 为更先进知识模型(如 TransR)以处理复杂关系。
- 探索跨语言三元组补全任务(预测缺失跨语言三元组)。
- 结合多语言词嵌入(如从文本语料)增强实体表示。
- 开源计划与时间表未说明。
更多推荐
所有评论(0)