这篇论文提出了一个大胆的问题设定:在没有任何图文并行数据的前提下,是否仍可在视觉与语言的嵌入空间之间建立有效的一一对应关系(“盲匹配”)?作者将这一任务形式化为二次指派问题(QAP),并提出因子化 Hahn‑Grant 求解器以获得内存更友好的下界与更优的原始解;同时,他们给出了一个选择“可解子集”的优化视角,使较大规模、细粒度类别上的匹配成为可能。本文在 4 个数据集、33 个视觉模型与 27 个语言模型上进行了系统实验,并展示了一个零标注下的无监督分类原型应用。

我整理了CVPR 2025计算机视觉相关论文+源码,感兴趣的自取!

论文这里
author

论文基本信息

  • 论文标题:It’s a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data
  • 作者:Dominik Schnaus, Nikita Araslanov, Daniel Cremers
  • 作者单位:TUM;MCML
  • 发布日期:2025年5月29日
  • 论文来源:https://arxiv.org/abs/2503.24129
  • 代码与模型地址:https://github.com/dominik-schnaus/itsamatch

摘要

在大模型与大数据集的驱动下,视觉与语言表示间的几何相似性正在增强——同一世界中的“猫、狗、飞机”等概念在两种模态内部的两两距离结构逐步趋同。基于这一“柏拉图式表示假说”,本文探索了无并行数据视觉—语言对应学习。核心思路是:仅依赖各自模态内部的相似度矩阵,将跨模态匹配转化为最小化配对后失真的 QAP;在算法上提出因子化 Hahn‑Grant下界法,内存复杂度由 O(N^4) 降至 O(N^3),并配合更快的线性指派求解器与原始启发式,显著提升求解规模与质量;在任务设计上,建立了一个p-dispersion-sum视角以自动筛选“最适配”的类别子集。实验显示:在不少实例上,无需配对监督即可得到显著优于随机的匹配;进一步结合聚类中心与QAP匹配,可构造零标注无监督分类器,在 CIFAR‑10 上取得非平凡精度

盲匹配概念示意

研究背景

视觉与语言大模型的发展路径并非同步:视觉侧常见自监督(如 DINO/DINOv2)、全监督(如 DeiT/ConvNeXt)与跨模态监督(如 CLIP);语言侧多采用大规模语料自监督(如 SBERT 系列)。尽管训练范式、数据分布、网络结构差异明显,但大量经验工作与理论直觉均指向一个趋势:不同模态在抽象概念的相对关系(而非绝对坐标)上逐渐趋同。本文将这种“相对关系”用内点相似/距离矩阵来表征,并证明只要匹配后能同时最小化两模态结构的失真,就可能恢复跨模态的一一对应,哪怕从未见过任何并行配对样本。

这一设定的重要性在于:

  • 它为理解模态一致性提供了新工具:研究者可不依赖标注,直接比较类间关系结构的一致性;
  • 它为无监督视觉识别铺路:若能将“类别语义”(由文本端承载)对齐到图像簇中心,就能在零并行、零标注下实现类别赋名;
  • 它为跨域/跨模态迁移打开空间:当获取配对数据困难或昂贵时,仍可“盲对齐”以移植语义知识。

相关工作

跨模态对齐传统上依赖并行数据或少量配对作为“锚点”,例如 CLIP 式联合训练或零样本“缝合”(stitching)方法;另一些工作采用Gromov‑Wasserstein(GW)类的结构保持距离来做不依赖点对的对齐,但计算代价与局部极值问题限制了规模与稳定性。QAP作为经典 NP 难问题,既有多种原始(primal)与对偶(dual)启发式,也有商业 MIP 求解器;然而,通用 QAP 在 N≥30 时常陷入内存与时间瓶颈。本文延续“使用结构保持度量做跨模态”的思路,但将之重铸为可因子化的 Koopmans‑Beckmann 型 QAP,并针对该结构对 Hahn‑Grant 进行因子化改造,使得在更大 N上获得更紧下界与更强原始解成为可能。

主要贡献

  • 问题形式化:提出仅基于模态内两两相似/距离的盲匹配 QAP框架,将跨模态对应学习等价为最小化配对后结构失真

  • 因子化 Hahn‑Grant 求解器

    • 记成本张量 C 可按失真函数的可分解形式因子化为两块 N×N 矩阵,从而将内存占用从 O(N^4) 降至 O(N^3)
    • Jonker‑Volgenant类 LAP 求解器替换 Hungarian,并重用 LAP 原始解作为 QAP 原始候选,提高收敛效率;
    • 在多处循环中下推/回填线性项与常数项,逐步抬升对偶下界。
  • 可解子集搜索:将“挑一组更容易匹配的类别子集”表述为p‑dispersion‑sum二次二元优化,借助商用求解器在合理时间内找到高对齐度子集,帮助在N>10时仍获得非平凡匹配。

  • 系统实证:在 CIFAR‑10/100、ImageNet‑100 等上,覆盖 30+ 视觉模型与 20+ 语言模型,展示了无监督匹配的可行性对求解器全局最优性的依赖;并以此构建了一个零并行数据无监督分类原型。

乱序比例与结构一致性的单调关系

研究方法与基本原理

任务建模:从结构失真到 QAP

给定 N 个类别的视觉嵌入 { x i x_i xi} 与语言嵌入 { y i y_i yi},构造两模态内部的相似度矩阵 X、Y(如内积或核相似),并以某种失真函数 l ( ⋅ , ⋅ ) l(\cdot,\cdot) l(,) 衡量“在一个排列 π \pi π 下,X 与 Y p i Y_{pi} Ypi 的结构差异”,目标是寻找最小失真的排列:

π ∗ ∈ arg ⁡ min ⁡ π ∈ Π N    ∑ i , j l ( X i j , Y π ( i )   π ( j ) ) . \pi^*\in\arg\min_{\pi\in\Pi_N}\;\sum_{i,j} l\big(X_{ij},Y_{\pi(i)\,\pi(j)}\big). πargπΠNmini,jl(Xij,Yπ(i)π(j)).

将排列空间改写为置换矩阵集合 P N \mathcal P_N PN 后,上式化为 Koopmans‑Beckmann 形式的二次指派问题

min ⁡ P ∈ P N    ∑ i , j , k , l l ( X i k , Y j l )   P i j P k l . \min_{P\in\mathcal P_N}\; \sum_{i,j,k,l} l\big(X_{ik},Y_{jl}\big)\,P_{ij}P_{kl}. PPNmini,j,k,ll(Xik,Yjl)PijPkl.

当失真函数满足
l ( A , B ) = f 1 ( A ) + f 2 ( B ) − h 1 ( A ) h 2 ( B ) l(A,B)= f_1(A)+f_2(B)-h_1(A)h_2(B) l(A,B)=f1(A)+f2(B)h1(A)h2(B)(覆盖负 Frobenius 内积KLGW等常用度量)时,上式可因子化为

min ⁡ P ∈ P N    ∑ i , k C i k ( 1 ) ∑ j , l C j l ( 2 )   P i j P k l , \min_{P\in\mathcal P_N}\; \sum_{i,k}C^{(1)}_{ik}\sum_{j,l}C^{(2)}_{jl}\,P_{ij}P_{kl}, PPNmini,kCik(1)j,lCjl(2)PijPkl,

其中 C ( 1 ) = − h 1 ( X ) ,    C ( 2 ) = h 2 ( Y ) C^{(1)}=-h_1(X),\; C^{(2)}=h_2(Y) C(1)=h1(X),C(2)=h2(Y)。这为后续的因子化对偶推进打下基础。

求解器:因子化 Hahn‑Grant(Dual‑Primal 协同)

经典 Hahn‑Grant 通过反复求解 N^2+1 个线性指派(LAP),将二次项“抽干”到线性与常数项,进而抬升对偶下界;但其显式维护 N×N×N×N 张量,内存为 O(N^4)。本文的因子化版本做了三点关键改造:

  1. 存量因子化:不再显式存 C,而以两个 N × N N\times N N×N C ( 1 ) , C ( 2 ) C^{(1)},C^{(2)} C(1),C(2) 加上三维缓存 U,V 记录“下推/回填”的局部贡献,整体内存降至 O(N^3)
  2. 原始回收:每次 LAP 都产出一个可行置换,作者将其直接回填到 QAP作原始目标评估,择优保留,避免“只抬下界不顾上界”的迟滞;
  3. 更快 LAP:采用 Jonker‑Volgenant 路径算法族,配合高效实现,实测在相同迭代次数下更快地提升下界与改善原始解。

原/因子化 Hahn‑Grant 流程对比

可解子集:p‑dispersion‑sum 视角

并非所有类别集合都“几何一致”。作者定义对齐度 A ( S ) = ∑ i , j ∈ S l ( X i j , Y i j ) A(S)=\sum_{i,j\in S} l(X_{ij},Y_{ij}) A(S)=i,jSl(Xij,Yij),并在 ∣ S ∣ = N |S|=N S=N 约束下最大化该量,得到标准的p‑dispersion‑sum二次二元规划。直观上,它偏好选择“在两模态里彼此关系最相似的一组类别”,从而让随后的 QAP 更易得到非平凡匹配

评价度量与核选择

作者比较了多种“结构一致性”度量:Mutual k‑NNCKAGW 距离。小规模枚举实验显示,GW 在恢复真实排列上更稳健(匹配精度更高),因此在主体实验中默认采用 GW。

实验与分析

小规模匹配:N≈10 的全空间枚举

在 CIFAR‑10 与 CINIC‑10 上,作者对若干视觉/语言模型组合进行了全排列枚举,从而拿到全局最优作对照。主要现象:

  • 多数组合的匹配精度显著高于随机 10%
  • DINOv2 在 CIFAR‑10 上可达约 80%,在 CINIC‑10 上甚至可达 100%
  • 影响匹配性的因素中,预训练范式比“模型尺寸”更关键(自监督 DINOv2 系列整体更优)。

CIFAR‑10/CINIC‑10 小规模匹配精度

中/大规模匹配:N>10 的子集选择与对齐

在 ImageNet‑100 与 CIFAR‑100 上,作者先用 p‑dispersion‑sum 选出前十个对齐度最优的类别子集,再在每个 N 上(如 N=10,20,…,100)评估三类视觉模型(CLIP、DeiT、DINOv2)与 SBERT 语言模型的匹配:

  • 各模型在小 N 时表现都很好;
  • 随 N 增大,精度下滑,但很多 N<40 的子集仍可取得高精度匹配
  • CLIP 在多数 N 上领先,表明跨模态监督有助于细粒度类间关系与语言空间更一致;
  • DINOv2 在 CIFAR‑100 上的下降更陡,提示其在细粒度层面与语言的结构一致性略逊于 CLIP/DeiT。

ImageNet‑100/CIFAR‑100 不同 N 上的匹配精度

求解器对比:全局最优的重要性

作者将本方法与 LocalCKA、GW‑OT(熵化)、FAQ、MPOpt 以及 Gurobi 做了两档对比:

  • 小规模(可枚举):只有 Gurobi 与本文始终命中全局最优;MPOpt 大多数时候接近最优;LocalCKA、OT、FAQ 往往陷在局部,匹配精度仅略高于随机
  • 大规模(N 到 100):在 CIFAR‑100 上,本文的下界始终最紧,原始解多数 N 上最佳,且在 N≤40 的范围内可证明达到全局最优;Gurobi 在 N>40 时超时未收敛。

各求解器在大规模问题上的目标与下界

小规模枚举下各求解器对比(精度/目标/最优率)

关键结论
  • 找到全局最优往往是得到“有意义匹配”的必要条件:局部最优(无论 OT 还是 FAQ)在目标值上看似不错,但对应的排列无法恢复真实对应
  • 对偶下界质量很重要:它既衡量算法进展,也决定能否认证全局最优
  • 因子化与原始回收的结合,使得在相同算力下可以处理更大的 N,并得到更有保障的匹配质量。

原型应用:零并行、零标注的无监督分类

流程:先对图像做 K‑Means 得到 K 个簇中心;再把这些中心与 K 条文本类别描述做 QAP 盲匹配;最终将每个簇的样本赋予对应文本类别——无需任何图文配对或图像标注。在 CIFAR‑10 上,DINOv2 + All‑Roberta‑large‑v1 的方案可达**~51%** 准确率,远高于随机 10%。尽管与有监督方法存在差距,但这已是首个真正意义上的全无监督分类实证之一。

无监督分类(K‑Means + QAP)准确率对比

误差分析与可复现实践

  • 类语义歧义:某些类别在语言端的相似性过高(例如“狗/狼/狐狸”),在视觉端又受背景/姿态变化干扰,导致结构不一致;
  • 对称性与多解:当若干类别在两模态中形成近似对称结构时,QAP 可能出现多重等价最优,匹配会在等价排列之间摇摆;
  • 规模与算力:理论上 O(N^5) 的时间复杂度仍是瓶颈;但因子化与更快 LAP 求解显著推大了可处理规模。

总结

本文以“结构一致性”为抓手,在不使用并行数据的前提下实现了视觉—语言的一一匹配。方法上,将跨模态对齐重述为Koopmans‑Beckmann 型 QAP,并以因子化 Hahn‑Grant推进对偶下界与原始解;任务设计上,通过p‑dispersion‑sum筛选“更一致”的类别集合,缓解了细粒度扩展带来的难题。实验强有力地表明:在相当一部分实例上,盲匹配是可行的,且可直接催生零配对、零标注的无监督分类原型。

展望

  • 可扩展求解:结合学习到的启发式分层块对齐,在保持下界质量的同时把 N 推向 10^3 量级;
  • 描述工程:在语言端设计判别力更强的类描述/模板,以提升细粒度一致性;
  • 跨模态知识蒸馏:在无并行条件下,将语言语义蒸馏到视觉编码器,以显式拉近两模态内部几何;
  • 应用纵深:面向开集识别长尾分类多模态检索,探索“盲对齐 + 在线自标注”的闭环训练。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐