论文基本信息

题目: Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment
作者: Muhao Chen, Yingtao Tian, Mohan Yang, Carlo Zaniolo
机构: 1. Department of Computer Science, UCLA; 2. Department of Computer Science, Stony Brook University
发表地点与年份: Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17), 2017
关键词术语:

  • Knowledge Graph Embeddings
  • Cross-lingual Knowledge Alignment
  • Multilingual Knowledge Graphs
  • Translation-based Models
  • Entity Matching
  • Triple-wise Alignment Verification

摘要(详细复述)

背景: 多语言知识库(如 Wikipedia、WordNet、ConceptNet)已成为人工智能应用的重要知识源,但跨语言知识对齐(如实体匹配和关系对齐)覆盖不足(例如 Wikipedia 中仅 15% 的实体有跨语言链接),人工对齐成本高且易出错。
方案概述: 提出 MTransE,一种基于翻译的多语言知识图嵌入模型,通过为每种语言分配独立的嵌入空间,并学习跨语言转换(transition),同时保留单语嵌入的功能性。部署三种跨语言转换技术:轴校准(axis calibration)、翻译向量(translation vectors)和线性变换(linear transformations),衍生出五种变体。
主要结果/提升:

  • 在跨语言实体匹配任务中,线性变换变体(Var4 和 Var5)在 WK3l-15k 和 WK3l-120k 数据集上取得最佳性能(Hits@10 最高达 68.53%)。
  • 在三元组对齐验证任务中,线性变换变体准确率最高(94.90%),显著优于基线方法(如 LM 和 CCA)。
  • 在单语任务(如尾实体预测和关系预测)中,MTransE 变体性能与单语 TransE 相当甚至更优。
    结论与意义: MTransE 为跨语言知识对齐提供了简单自动的解决方案,可扩展至多语言场景,并为知识库补全和跨语言应用奠定基础。

研究背景与动机

学术/应用场景与痛点:

  • 多语言知识库(如 Wikipedia)包含单语知识(实体和关系三元组)和跨语言知识(实体间链接和关系对齐),但跨语言对齐覆盖低(<15%),且人工对齐成本高。
  • 嵌入技术(如 TransE)已成功用于单语知识图补全,但跨语言对齐面临挑战:
    • 跨语言转换域远大于单语关系翻译。
    • 实体和关系的词汇在不同语言间不一致。
    • 对齐数据通常仅占知识库一小部分。

主流路线与局限:

方法类别 代表工作 优点 不足
知识图嵌入 TransE, TransH, TransR 简单高效,支持关系推理 仅处理单语,未考虑跨语言对齐
多语言词嵌入 LM, CCA, OT 可从平行语料学习跨语言映射 依赖文本并行性,不直接适用于知识图结构
知识库对齐 Wikidata, DBpedia, YAGO 可生成高质量对齐 依赖众包或手工特征,成本高且泛化性差

问题定义(形式化)

输入:

  • 多语言知识库 KBKBKB,包含语言集合 LLL,每种语言 Li∈LL_i \in LLiL 对应知识图 GLi=(ELi,RLi,TLi)G_{L_i} = (E_{L_i}, R_{L_i}, T_{L_i})GLi=(ELi,RLi,TLi),其中 ELiE_{L_i}ELi 为实体集合,RLiR_{L_i}RLi 为关系集合,TLiT_{L_i}TLi 为三元组集合。
  • 对齐集合 δ(Li,Lj)\delta(L_i, L_j)δ(Li,Lj):包含已对齐的三元组对 (T,T′)(T, T')(T,T),其中 T∈GLiT \in G_{L_i}TGLi, T′∈GLjT' \in G_{L_j}TGLj

输出:

  • 每种语言 LiL_iLi 的实体和关系嵌入向量:e∈Rk\mathbf{e} \in \mathbb{R}^{k}eRke∈ELie \in E_{L_i}eELi),r∈Rk\mathbf{r} \in \mathbb{R}^{k}rRkr∈RLir \in R_{L_i}rRLi)。
  • 跨语言转换函数 τij\tau_{ij}τij:将语言 LiL_iLi 的嵌入向量映射到 LjL_jLj 的嵌入空间。

目标函数: 最小化损失函数 J=SK+αSAJ = S_K + \alpha S_AJ=SK+αSA,其中:

  • SKS_KSK 为单语知识模型损失(保留图结构)。
  • SAS_ASA 为对齐模型损失(学习跨语言转换)。
  • α\alphaα 为超参数权重。

评测目标:

  • 跨语言实体匹配:给定实体 eee 在语言 LiL_iLi,查找其在 LjL_jLj 的对应实体 e′e'e
  • 三元组对齐验证:判断一对三元组 (T,T′)(T, T')(T,T) 是否正确对齐。
  • 单语任务:尾实体预测(给定 (h,r)(h, r)(h,r) 预测 ttt)和关系预测(给定 (h,t)(h, t)(h,t) 预测 rrr)。

创新点(逐条可验证)

  1. 多语言知识图嵌入框架: 首次将翻译模型扩展到多语言场景,通过分离语言特定嵌入空间和跨语言转换函数,同时保留单语关系语义和跨语言对齐能力。

    • 如何做: 为每种语言分配独立嵌入空间,使用 TransE 作为知识模型,并设计三种对齐模型(轴校准、翻译向量、线性变换)。
    • 为什么有效: 分离空间避免语言间干扰,对齐模型利用少量对齐数据学习一致映射。
  2. 部分对齐训练机制: 模型可在仅部分三元组对齐的情况下训练,无需全对齐知识库。

    • 如何做: 损失函数 SAS_ASA 仅基于已知对齐对,通过梯度下降联合优化 SKS_KSKSAS_ASA
    • 为什么有效: 正则化单语嵌入空间,提升跨语言泛化性。
  3. 多技术跨语言转换比较: 系统比较三种转换技术(轴校准、翻译向量、线性变换),并衍生五种变体,通过实验确定线性变换最优。

    • 如何做: 定义五种损失函数 Sa1Sa_1Sa1Sa5Sa_5Sa5,对应不同转换假设。
    • 为什么有效: 线性变换(Var4/Var5)灵活捕捉嵌入空间拓扑变换,不受空间结构相似性假设限制。

方法与核心思路

整体框架

MTransE 由两个核心组件构成:

  1. 知识模型(Knowledge Model): 为每种语言 LiL_iLi 学习单语嵌入空间,使用 TransE 损失函数保留三元组结构。
  2. 对齐模型(Alignment Model): 基于已知对齐三元组对,学习跨语言转换函数 τij\tau_{ij}τij,支持三种技术实现。
多语言知识库
知识模型: TransE per language
对齐模型: 跨语言转换学习
单语嵌入空间 L1, L2, ...
转换函数 τ_ij
跨语言实体匹配
三元组对齐验证

步骤分解

  1. 嵌入空间初始化: 为每种语言 LiL_iLi 随机初始化实体和关系嵌入向量(单位球面均匀分布)。
  2. 知识模型训练: 最小化 TransE 损失 SKS_KSK,确保单语三元组满足 h+r≈t\mathbf{h} + \mathbf{r} \approx \mathbf{t}h+rt
  3. 对齐模型训练: 最小化对齐损失 SAS_ASA,学习跨语言转换参数(如翻译向量或线性矩阵)。
  4. 交替优化: 在每个 epoch 中交替更新 SKS_KSKαSA\alpha S_AαSA 的梯度。
  5. 推断应用: 使用学习到的转换函数 τij\tau_{ij}τij 执行跨语言任务(如 kNN 搜索)。

模块与交互

  • 知识模型模块:

    • 输入: 单语三元组 (h,r,t)∈GLi(h, r, t) \in G_{L_i}(h,r,t)GLi
    • 输出: 实体和关系嵌入向量 h,r,t∈Rk\mathbf{h}, \mathbf{r}, \mathbf{t} \in \mathbb{R}^kh,r,tRk
    • 功能: 通过损失 SK=∑L∈{Li,Lj}∑(h,r,t)∈GL∥h+r−t∥S_K = \sum_{L \in \{L_i, L_j\}} \sum_{(h,r,t) \in G_L} \|\mathbf{h} + \mathbf{r} - \mathbf{t}\|SK=L{Li,Lj}(h,r,t)GLh+rt 保留图结构。
  • 对齐模型模块:

    • 输入: 对齐三元组对 (T,T′)∈δ(Li,Lj)(T, T') \in \delta(L_i, L_j)(T,T)δ(Li,Lj)
    • 输出: 转换参数(如翻译向量 veij\mathbf{v}_{e}^{ij}veij 或线性矩阵 Meij\mathbf{M}_{e}^{ij}Meij)。
    • 功能: 通过最小化 SA=∑(T,T′)Sa(T,T′)S_A = \sum_{(T,T')} Sa(T, T')SA=(T,T)Sa(T,T) 学习跨语言映射。
    • 依赖: 知识模型提供的嵌入向量作为输入。

公式与符号

知识模型损失:

SK=∑L∈{Li,Lj}∑(h,r,t)∈GL∥h+r−t∥ S_K = \sum_{L \in \{L_i, L_j\}} \sum_{(h,r,t) \in G_L} \|\mathbf{h} + \mathbf{r} - \mathbf{t}\| SK=L{Li,Lj}(h,r,t)GLh+rt

对齐模型损失(五种变体):

  1. 轴校准(距离基础):

    Sa1=∥h−h′∥+∥t−t′∥ Sa_1 = \|\mathbf{h} - \mathbf{h}'\| + \|\mathbf{t} - \mathbf{t}'\| Sa1=hh+tt

    Sa2=∥h−h′∥+∥r−r′∥+∥t−t′∥ Sa_2 = \|\mathbf{h} - \mathbf{h}'\| + \|\mathbf{r} - \mathbf{r}'\| + \|\mathbf{t} - \mathbf{t}'\| Sa2=hh+rr+tt

  2. 翻译向量:

    Sa3=∥h+veij−h′∥+∥r+vrij−r′∥+∥t+veij−t′∥ Sa_3 = \|\mathbf{h} + \mathbf{v}_e^{ij} - \mathbf{h}'\| + \|\mathbf{r} + \mathbf{v}_r^{ij} - \mathbf{r}'\| + \|\mathbf{t} + \mathbf{v}_e^{ij} - \mathbf{t}'\| Sa3=h+veijh+r+vrijr+t+veijt

  3. 线性变换:

    Sa4=∥Meijh−h′∥+∥Meijt−t′∥ Sa_4 = \|\mathbf{M}_e^{ij} \mathbf{h} - \mathbf{h}'\| + \|\mathbf{M}_e^{ij} \mathbf{t} - \mathbf{t}'\| Sa4=Meijhh+Meijtt

    Sa5=∥Meijh−h′∥+∥Mrijr−r′∥+∥Meijt−t′∥ Sa_5 = \|\mathbf{M}_e^{ij} \mathbf{h} - \mathbf{h}'\| + \|\mathbf{M}_r^{ij} \mathbf{r} - \mathbf{r}'\| + \|\mathbf{M}_e^{ij} \mathbf{t} - \mathbf{t}'\| Sa5=Meijhh+Mrijrr+Meijtt

符号说明:

  • h,r,t\mathbf{h}, \mathbf{r}, \mathbf{t}h,r,t:头实体、关系、尾实体的嵌入向量。
  • veij,vrij\mathbf{v}_e^{ij}, \mathbf{v}_r^{ij}veij,vrij:从语言 LiL_iLiLjL_jLj 的实体和关系翻译向量。
  • Meij,Mrij\mathbf{M}_e^{ij}, \mathbf{M}_r^{ij}Meij,Mrij:从语言 LiL_iLiLjL_jLj 的实体和关系线性变换矩阵(k×kk \times kk×k)。
  • ∥⋅∥\|\cdot\|l1l_1l1l2l_2l2 范数(实验中选择)。

伪代码

初始化所有实体和关系嵌入向量(单位球面均匀分布)
初始化对齐模型参数(如翻译向量或矩阵)
for epoch = 1 to N do
    for each batch in 知识模型数据 do
        计算损失 S_K = ∑‖h + r - t‖
        更新参数:θ ← θ - η ∇S_K
    end for
    for each batch in 对齐模型数据 do
        计算损失 S_A = ∑Sa(T, T')
        更新参数:θ ← θ - η α ∇S_A
    end for
    强制实体嵌入向量单位范数(正则化)
end for

伪代码描述: 采用随机梯度下降交替优化知识模型和对齐模型损失,每步更新后对实体嵌入进行单位范数约束以避免退化。

复杂度分析

  • 时间复杂度:
    • 知识模型:O(∣T∣⋅k)O(|T| \cdot k)O(Tk),其中 ∣T∣|T|T 为三元组数量,kkk 为嵌入维度。
    • 对齐模型:O(∣δ∣⋅k)O(|\delta| \cdot k)O(δk)(Var1-3)或 O(∣δ∣⋅k2)O(|\delta| \cdot k^2)O(δk2)(Var4-5),∣δ∣|\delta|δ 为对齐对数量。
  • 空间复杂度:
    • 实体和关系嵌入:O((∣E∣+∣R∣)⋅k⋅∣L∣)O((|E| + |R|) \cdot k \cdot |L|)O((E+R)kL)
    • 对齐参数:Var3 为 O(∣L∣2⋅k)O(|L|^2 \cdot k)O(L2k),Var4 为 O(∣L∣2⋅k2)O(|L|^2 \cdot k^2)O(L2k2),Var5 为 O(∣L∣2⋅2k2)O(|L|^2 \cdot 2k^2)O(L22k2)
  • 搜索复杂度:
    • 跨语言实体匹配:kNN 搜索 O(∣E∣⋅k)O(|E| \cdot k)O(Ek)(Var1-3)或 O(∣E∣⋅k2)O(|E| \cdot k^2)O(Ek2)(Var4-5)。

关键设计选择

  • 分离嵌入空间: 避免语言间干扰,允许独立优化单语结构。
  • 单位范数约束: 防止训练崩溃,确保线性变换可逆(对 Var4/Var5 关键)。
  • 交替训练: 平衡知识保留和对齐学习,避免对齐噪声破坏单语语义。
  • 多技术比较: 通过实验验证线性变换最适合跨语言转换,因其不假设空间结构相似性。

实验设置

数据集:

  • WK3l-15k 和 WK3l-120k(英语、法语、德语),从 DBpedia dbo:Person 域提取。
  • 统计信息:
数据集 #En 三元组 #Fr 三元组 #De 三元组 #对齐三元组(En-Fr/En-De)
WK3l-15k 203,502 170,605 145,616 16,470 / 37,170
WK3l-120k 1,376,011 767,750 391,108 124,433 / 69,413
  • 额外实体 ILLs 用于评估(见表 3 原文)。

对比基线:

  • LM [Mikolov et al., 2013]:线性变换跨语言映射。
  • CCA [Faruqui and Dyer, 2014]:典型相关分析。
  • OT [Xing et al., 2015]:正交变换联合训练。

评价指标:

  • 实体匹配:Hits@10(排名前10命中比例)、Mean(平均倒数排名)。
  • 三元组对齐验证:准确率(二分类)。
  • 单语任务:Hits@10(尾实体和关系预测)。

实现细节:

  • 框架:未说明(基于 SGD 自行实现)。
  • 硬件:未说明。
  • 超参数:学习率 η∈{0.001,0.01,0.1}\eta \in \{0.001, 0.01, 0.1\}η{0.001,0.01,0.1}α∈{1,2.5,5,7.5}\alpha \in \{1, 2.5, 5, 7.5\}α{1,2.5,5,7.5}k∈{50,75,100,125}k \in \{50, 75, 100, 125\}k{50,75,100,125},范数(l1l_1l1l2l_2l2)。
  • 最佳配置:WK3l-15k:η=0.01\eta=0.01η=0.01, α=5\alpha=5α=5, k=75k=75k=75, l1l_1l1(Var1,Var2,LM,CCA), l2l_2l2(其他);WK3l-120k:η=0.01\eta=0.01η=0.01, α=5\alpha=5α=5, k=100k=100k=100, l2l_2l2(所有)。
  • 训练时长:400 epochs,未说明具体耗时。
  • 随机性:初始化种子未说明。

实验结果与分析

主结果表

跨语言实体匹配(Hits@10 %):

方法 WK3l-15k (En-Fr) WK3l-15k (En-De) WK3l-120k (En-Fr) WK3l-120k (En-De)
LM 22.17 22.30 11.74 24.52
CCA 26.46 22.30 19.47 25.54
OT 44.47 49.24 38.91 38.85
Var1 48.67 50.60 38.58 42.06
Var2 46.27 49.00 31.88 41.22
Var3 50.82 52.16 38.26 50.48
Var4 66.25 68.53 48.66 57.56
Var5 60.25 66.03 45.65 64.22

三元组对齐验证(准确率 %):

方法 WK3l-15k (En&Fr) WK3l-15k (En&De) WK3l-120k (En&Fr) WK3l-120k (En&De)
LM 52.23 63.61 59.98 59.98
CCA 52.28 66.49 65.89 61.01
OT 93.20 87.97 88.65 85.24
Var1 93.25 91.24 91.27 91.35
Var2 90.24 86.59 89.36 86.29
Var3 90.38 84.24 87.99 87.04
Var4 94.58 95.03 93.48 93.06
Var5 94.90 94.95 92.63 93.66

单语任务(Hits@10 %):

  • 尾实体预测:Var4 和 Var5 在多数设置下与 TransE 相当(差异 <2%)。
  • 关系预测:Var4 和 Var5 部分超过 TransE(如 WK3l-15k En: TransE 61.79, Var5 64.79)。

消融实验:

  • 未明确消融,但通过变体比较隐含组件贡献:
    • Var2(关系轴校准)性能下降,表明关系对齐干扰实体映射。
    • Var3(翻译向量)不如线性变换,因未区分跨语言转换与单语关系。

泛化/鲁棒性:

  • 线性变换变体(Var4/Var5)在稀疏德语图上仍保持最佳,显示对图密度不敏感。

误差分析与失败案例

错误类别:

  • 实体匹配错误:主要发生在低频实体或关系上,因嵌入学习不充分。
  • 三元组验证错误:多对多关系(如 “author_of”)易误判,因转换后向量空间重叠。

成因假设:

  • 稀疏语言(如德语)三元组少,导致嵌入质量低。
  • 对齐数据不足(仅部分三元组对齐)限制转换函数学习。

边界条件:

  • 当前模型假设对齐三元组共享相同关系语义,但实际中关系表达可能因文化差异略有不同(未建模)。

复现性清单

代码/数据: 未提供公开代码;数据集基于 DBpedia 构建,但未提供处理脚本。
模型权重: 未发布。
环境与依赖: 未说明。
运行命令: 未提供。
配置文件: 未提供。
评测脚本: 未提供。
许可证与限制: 未说明。

结论与未来工作

可推广性:

  • MTransE 可扩展至任意语言对,只需定义对应对齐集合。
  • 线性变换技术可整合到其他嵌入模型(如 TransH、TransR)。

后续方向:

  1. 替换 TransE 为更先进知识模型(如 TransR)以处理复杂关系。
  2. 探索跨语言三元组补全任务(预测缺失跨语言三元组)。
  3. 结合多语言词嵌入(如从文本语料)增强实体表示。
  4. 开源计划与时间表未说明。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐