ALIGNING FIRST, THEN FUSING: A NOVEL WEAKLY SUPERVISED MULTIMODAL VIOLENCE DETECTION METHOD

弱监督暴力检测是指仅使用视频级标签训练模型来识别视频中暴力片段的技术。在这些方法中，融合了音频和光流等模态的多模态暴力检测具有巨大潜力。该领域现有的方法主要侧重于设计多模态融合模型来解决模态差异问题。相比之下，我们采用了一种不同的方法——利用暴力事件表示中各模态之间的固有差异，提出一种新颖的多模态语义特征对齐方法。这种方法将局部的、短暂的且信息较少的模态（如音频和光流）的语义特征稀疏地映射到信息更

zoe小涵

889人浏览 · 2025-04-23 18:51:34

zoe小涵 · 2025-04-23 18:51:34 发布

https://arxiv.org/pdf/2501.07496v1

https://github.com/xjpp2016/mavd

ABSTRACT

弱监督暴力检测是指仅使用视频级标签训练模型来识别视频中暴力片段的技术。在这些方法中，融合了音频和光流等模态的多模态暴力检测具有巨大潜力。该领域现有的方法主要侧重于设计多模态融合模型来解决模态差异问题。相比之下，我们采用了一种不同的方法——利用暴力事件表示中各模态之间的固有差异，提出一种新颖的多模态语义特征对齐方法。这种方法将局部的、短暂的且信息较少的模态（如音频和光流）的语义特征稀疏地映射到信息更丰富的RGB语义特征空间中。通过迭代过程，该方法识别出合适的非零特征匹配子空间，并基于此子空间对齐特定模态的事件表示，从而在后续的模态融合阶段能够充分利用所有模态的信息。在此基础上，我们设计了一种新的弱监督暴力检测框架，该框架由用于提取单模态语义特征的单模态多实例学习、多模态对齐、多模态融合以及最终检测组成。在基准数据集上的实验结果证明了我们方法的有效性，在XD-Violence数据集上达到了86.07%的平均精度（AP）。我们的代码可在https://github.com/xjpp2016/MAVD上获取。

Keywords Weakly supervised · Multimodal violence detection · Multimodal alignment

1 Introduction

暴力检测（VD）旨在识别视频中的暴力事件，在安全监控和内容审核等领域具有巨大的应用潜力[1, 2]。然而，在监督学习范式中，准确地定位暴力事件需要逐帧标注，这既耗时又耗力。为了克服这一挑战，最近许多研究采用了基于多实例学习（MIL）的弱监督学习框架[3]。基于MIL的暴力检测方法将视频视为包，视频级标签表示暴力事件的有无，并学习识别每个包中最具判别力的前K个实例。

目前，大多数弱监督暴力检测方法主要集中在视觉任务上[4, 5, 6, 7, 8]，而对于结合音频的多模态方法的研究相对有限[9, 10]。然而，多模态暴力检测具有巨大的潜力，因为音频能提供有价值的补充信息。特别是某些声音，如呼喊声、打斗声、枪声或爆炸声，经常伴随着暴力事件出现。

弱监督多模态暴力检测的核心挑战在于，在缺乏详细标签信息的情况下有效地整合来自不同模态的信息，这也可以被看作是实现有效模态融合的挑战。一种简单直接的融合方法是像早期多模态暴力检测方法[9, 10]那样，直接将视觉和音频特征连接起来而不进行任何处理。然而，由于这些模态之间存在显著差异，这种方法存在明显的局限性，主要体现在两个关键方面：模态信息差异和模态异步性。这两种现象在暴力检测任务中尤为普遍。在许多暴力事件中，音频模态通常捕捉到诸如撞击声、枪声、爆炸声或尖叫声等瞬态声音，而视觉模态则传达更丰富、更详细的信息，如颜色变化、面部表情和身体互动。此外，不同模态特征的出现时间可能不同；例如，攻击动作可能先于受害者的尖叫，或者在枪击事件中，音频特征可能比相应的视觉特征出现得更早，尽管它们传达的语义相同。忽略这些模态特定的特征并同等对待两种模态，可能会导致包含冗余信息，最终降低音频模态的有效性，甚至会错误呈现不同模态之间的因果关系。

最近，一些方法试图解决这两种模态差异问题，以实现更有效的模态融合。为了解决模态信息差异问题，一种典型的方法是设计专门的模态间交互模块，对模态特征进行加权融合，如文献[11, 12, 13]中所示。对于模态异步问题，余家硕等人[14]率先解决了这一问题，他们采用音频到视听的自蒸馏方法来消除这种差异。

与先前的方法不同，我们认为音频和视觉模态之间的差异根本上源于视觉和听觉在事件感知中所扮演的不同角色。视觉模态通常提供丰富的空间和动态信息，能对事件进行高维表示，而音频捕捉到的声音特征往往是瞬间的，且在时间上具有局部性。因此，在缺乏详细标签信息的情况下，从低层次内容层面解决模态差异的价值有限。相反，在更高的语义层面，我们提议利用这些模态的固有属性，借助它们在事件表示中的一致性来对齐每个模态的语义特征。然后可以基于对齐后的语义特征进行多模态融合，从而在语义层面充分利用特定模态的信息。基于这一分析，我们引入了一种新颖的多模态暴力检测框架，它由三个阶段组成：

图1. (a) 搜索模态特征匹配子空间（MFMS）并对齐特征的示意图。在每次迭代中，我们计算音频和视觉特征维度之间的成对相似度，选择匹配度最高的视觉特征维度作为MFMS。音频特征被映射到MFMS中，形成稀疏特征，然后与视觉特征对齐。(b) MFMS收敛过程的可视化。红色条形表示在50次迭代中某个特定视觉特征维度是否被识别为MFMS的一部分，颜色越深表示识别频率越高。可以观察到，在迭代开始时，大多数维度都被视为MFMS的一部分，经过几次迭代后，MFMS收敛到一小部分维度。

1. 单模态多实例学习：此阶段专注于使用多实例学习损失来训练每个模态的编码器，目的是为暴力检测（VD）任务提取最相关的语义特征。

2. 多模态对齐：此阶段包括搜索模态特征匹配子空间（MFMS），并基于找到的MFMS对齐语义特征。以视听搜索和对齐过程为例（如图1（a）所示）。MFMS是视觉语义特征空间中与音频语义特征空间匹配最佳的子空间。MFMS的存在基于这样一个假设：由于音频和视觉模态在事件感知中提供的信息量不同，音频语义特征向视觉语义特征空间的投影应该是稀疏的。具体来说，投影的某些维度应该具有零分量，这表明这些特征维度代表了视觉模态特有的语义信息。另一方面，非零投影分量代表了用于事件表达的共享特征空间，这就构成了MFMS。在训练过程中，对MFMS的搜索（详见算法1）是动态的：在第一次迭代中，我们计算音频和视觉特征维度之间的成对相似度，选择匹配度最佳的视觉特征维度作为MFMS。然后将音频特征投影到MFMS中，生成新的稀疏音频特征，再将其与视觉特征对齐。在下一次迭代中，重新搜索MFMS，并重新对齐音频和视觉特征。这个迭代过程持续进行，直到收敛到一个稳定的特征子空间，如图1（b）所示。

上述对齐指的是增强两种模态在事件表达上的一致性。这涉及两个方面：1）缩小匹配后两种模态语义特征之间的距离；2）确保模态之间的时间一致性。这种方法强化了与事件表达密切相关的模态特征，有助于减少每个模态中冗余信息的影响，并提高特定模态信息的互补性。我们的完整模型进一步将视觉模态细化为RGB视频和光流视频（分别称为RGB和光流）。在前面提到的语境中，“视觉”指的是RGB。与音频和RGB之间的关系类似，光流侧重于动态细节，而RGB包含更全面的信息。因此，光流的语义特征在RGB特征空间中也呈现出稀疏投影。因此，完整模型会搜索两个模态特征匹配子空间（MFMS）：RGB - 音频和RGB - 光流。对齐过程涉及音频、RGB和光流这三种模态之间的两两对齐，这将在第3节中详细解释。可以看出，我们的方法本质上确立了一个主要模态——RGB。主要模态构建主要信息框架，其他模态在这个框架内作为补充，这与每个模态的固有特性相契合。

3. 多模态融合与暴力检测：由于前面的组件显著增强了每个模态特征的 “可用性”，这部分的结构较为简单，由一个用于融合模态特征的编码器和一个计算暴力得分的回归层组成。训练所使用的损失函数既包含多实例学习（MIL）损失，也包含针对该任务专门设计的三元组损失。

在XD-Violence多模态暴力检测数据集上的实验结果证明了我们方法的有效性，该方法将平均精度（AP）提高到了86.07%，显著超越了现有的相关研究成果。我们工作的关键创新点可以总结如下：

- 我们提出了一种通过利用各模态固有属性在语义层面进行特征对齐的新方法。与以往方法不同，我们的方法不仅克服了模态差异，还能有效利用这些差异。

- 基于这种对齐方法，我们引入了一种全新的、简洁且有效的多模态暴力检测框架。

• 在XD-Violence数据集上的实验结果表明，所提出的方法达到了最先进的性能。

2 Related Work

2.1 Weakly supervised Violence Detection

弱监督暴力检测（VD）旨在利用视频级标签识别暴力片段，它与弱监督视频异常检测密切相关。在弱监督视频异常检测的背景下，大多数现有研究将暴力场景视为异常场景的一个子集。因此，我们所说的弱监督暴力检测方法中，有很大一部分本质上是视频异常检测方法。其中许多方法将暴力检测视为纯粹的视觉任务[4, 5, 6, 7, 15, 16, 8, 17, 18]。虽然这些方法探索了各种提取和处理视觉特征的技术，但它们往往忽略了其他模态的潜在贡献。

最近，随着像XD - Violence [9]这样的大规模视听数据集发布，多模态弱监督暴力检测受到了广泛关注。该领域的一个关键挑战是，在缺乏详细标签的情况下，如何有效融合来自数据不平衡模态的信息。现有方法[9]、[10]、[19]通常不进行任何预处理就直接合并模态特征，这使得它们容易受到模态间不平衡性的影响。一些方法[11, 12, 13]设计了专门的模态间交互模块，对模态特征进行加权融合，以缓解这些问题。余家硕等人[14]率先解决了音频和视觉数据之间的模态异步问题，采用音频到视听的自蒸馏方法消除了这种差异。与以往方法不同，我们利用各模态间固有的不平衡性，设计了一种新颖的多模态语义特征对齐方法。该方法旨在通过对齐各模态的语义特征，提高每个模态信息的利用率，从而增强多模态融合在暴力检测中的有效性。

2.2 Multimodal Alignment and Fusion

对齐和融合是多模态学习中的核心概念[20, 21]。尽管它们有所不同，但却是互补且相互依存的[22, 20]。多模态对齐的目标是通过建立语义一致性来解决不同模态（如文本、图像、音频、视频等）之间的异质性问题，以便这些模态能够在一个共同的表示空间中表达相似或相关的语义信息。另一方面，多模态融合是有效地整合来自多个模态的信息以生成统一表示的过程[22, 20, 23]。最近的研究表明，在融合之前进行对齐可以增强融合过程。这是因为对齐确保了来自不同来源的数据在时间、空间或上下文方面保持同步，从而使它们的组合具有意义[24]。对齐还能够有效利用信息较少的模态[25]，并确保不同模态之间的关系得到充分理解和准确建模[20, 26]。这些因素有助于基于对齐数据的多模态融合过程捕获更全面、更有用的信息[22]。在我们的方法中，多模态对齐主要是为了促进多模态融合而设计的。实验结果表明，一旦模态对齐，简单直接的融合策略就能实现出色的性能。

文献[20]将多模态对齐分为两类：显式对齐和隐式对齐。显式对齐的一个关键特征是直接测量相似度，而隐式对齐通常不会显式地对齐数据；相反，在涉及模态交互的任务（如图像字幕生成[27]、视觉问答[28]等）中，对齐是模型潜在结构的一部分。从这个角度来看，我们的对齐方法更接近显式对齐。显式对齐的基础工作包括典型相关分析（CCA）[29]及其深度学习扩展——深度典型相关分析（Deep CCA）[30]。CCA找到一种线性变换，将来自两种模态的数据投影到一个共享空间中，并最大化它们之间的相关性，而深度典型相关分析使用深度神经网络进行非线性映射，能够更好地对齐不同模态的特征。在最近的多模态学习研究中，CCA常被用作对齐模态的损失函数[31, 32, 33]。我们的方法与以往方法不同。我们的相似度度量旨在识别主要模态（主要信息源）特征空间中，在事件表示上与次要模态（提供补充信息）相对应的子空间。这些子空间是主要模态特征空间的一部分，用于将次要模态的特征稀疏地映射到主要模态的特征空间中。用于训练的对齐损失（见3.2节）主要考虑主要模态的特征、稀疏化后的次要模态特征、它们之间的成对距离，以及模态特征在时间决策序列空间中映射的一致性。

3 Method

在本文中，我们提出了一种新颖的弱监督多模态暴力检测框架，该框架能够有效地利用来自三种不同模态的信息：RGB、音频和光流。这个框架包括单模态语义特征提取、多模态对齐以及融合过程。整体架构如图2所示。下面，我们将对我们的方法进行详细阐述。

图2. 所提出框架的概述。该框架包含三个阶段：1. 单模态多实例学习（MIL），此阶段专注于使用多实例学习损失来训练每个模态的编码器，目的是为暴力检测（VD）任务提取最相关的语义特征。2. 多模态对齐，在这个阶段，我们所提出的方法搜索模态特征匹配子空间（MFMS），并基于所找到的MFMS对齐不同模态的语义特征。3. 多模态融合与最终的暴力检测，此阶段利用多模态编码器融合已对齐的模态特征，并使用多实例学习损失以及专门为暴力检测任务设计的三元组损失来训练模型。

3.1 Unimodal Semantic Feature Extraction

我们的模态对齐是在语义特征层面进行的。在对齐之前，从每个模态中提取与暴力检测（VD）任务相关的语义特征至关重要。因此，这个阶段旨在训练编码器，以便在暴力检测任务的背景下，为每个模态提取最相关的语义特征。

每个模态的编码器将从预训练网络中提取的视觉或听觉特征作为输入（例如，对于RGB和光流使用I3D[34]网络，对于音频使用VGGish[35, 36]网络）。\(f_{R}\)、\(f_{F}\)和\(f_{A}\)分别表示由预训练网络为RGB、光流和音频提取的特征。每个模态的编码器结构是相同的，唯一的区别在于输入和输出的特征维度。该编码器由一个一维卷积层和其后的一个Transformer模块组成。

一维卷积层用于提取局部时间特征，并且根据每个模态所包含的信息量，来自不同模态的特征会被降维到不同的维度：

\[f_{R}^{c} \in \mathbb{R}^{T × D_{R}}=Convld_{R}\left(f_{R}\right), (1)\]

\[f_{F}^{c} \in \mathbb{R}^{T × D_{F}}=Convld_{F}\left(f_{F}\right), (2)\]

\[f_{A}^{c} \in \mathbb{R}^{T × D_{A}}=Convld_{A}\left(f_{A}\right) . (3)\]

其中\(D_{R}\)、\(D_{F}\)和\(D_{A}\)分别是不同模态的特征维度。基于每个模态所包含的信息量，我们假设\(D_{R}>D_{F}>D_{A}\)。

Transformer模块的每一层都由全局和局部多头自注意力机制（GL-MHSA）以及一个前馈网络（FFN）组成，其设计目的是提取融合了局部和全局信息的语义特征。由文献[19]提出的GL-MHSA，除了全局注意力之外，还引入了一个局部时间掩码，使模型能够捕捉长距离依赖关系和局部结构。这增强了模型在处理复杂序列数据时的表达能力。前馈网络进一步处理这些特征，通过提供非线性变换来提高模型的拟合能力，而层归一化（LN）则确保了训练过程的稳定性。Transformer模块的第\(l\)层可以表示如下：

\[\hat{z}^{l}=LN\left(GL-MHSA\left(z^{l}\right)\right)+z^{l},(4)\]

\[z^{l+1}=LN\left(FFN\left(\hat{z}^{l}\right)\right)+\hat{z}^{l} . (5)\]

其中，\(z^{l}\) 表示第\(l\)层的输入特征。在经过所有的Transformer层之后，我们得到了每个模态的高级特征：\(z_{R}\)、\(z_{F}\) 和 \(z_{A}\)。

为了确保这些高级特征与暴力检测（VD）任务高度相关，我们将每个模态编码器的训练视为一个弱监督的暴力检测任务。具体来说，我们首先在每个模态编码器的末端应用一个回归层，以获得帧级别的异常分数。这个回归层由一个三层的多层感知机（MLP）组成，它为每个时间步计算异常分数：

\[s_{R}=Regressor_{R}\left(z_{R}\right), (6)\]

\[s_{F}=Regressor_{F}\left(z_{F}\right) . (7)\]

\[s_{A}=Regressor_{A}\left(z_{A}\right) . (8)\]

由于缺乏帧级别的注释，我们采用多示例学习（MIL）损失，该损失使用了广泛应用的前\(K\)值策略：它对前\(K\)个异常分数求平均值，即\(\bar{s}=\frac{1}{K} \sum_{i \in T_{K}(s)} s_{i}\) ，其中\(T_{K}(s)\)表示\(s\)中前\(K\)个分数组成的集合。因此，每个模态的多示例学习损失可以描述如下：

\[\mathcal{L}_{R}^{M I L}=-y \log \left(\overline{s}_{R}\right)-(1-y) \log \left(1-\overline{s}_{R}\right), \quad(9)\]

\[\mathcal{L}_{F}^{M I L}=-y \log \left(\overline{s}_{F}\right)-(1-y) \log \left(1-\overline{s}_{F}\right), \quad(10)\]

\[\mathcal{L}_{A}^{M I L}=-y \log \left(\overline{s}_{A}\right)-(1-y) \log \left(1-\overline{s}_{A}\right) . (11)\]

在这里，\(y\)是视频级别的标签。

3.2 Multimodal Alignment

这一阶段的目标是通过模态对齐来增强与事件表示密切相关的特定模态特征，确保跨模态的语义一致性，并提高跨模态特征的互补性。

如第1节所述，我们的对齐是基于对模态特征匹配子空间（MFMS）的搜索来实现的，这些子空间是主要模态语义特征空间中在事件表示方面与次要模态最相关的部分。主要模态的选择基于以下分析：与RGB模态相比，音频捕捉的是与暴力事件相关的声音特征，这些特征通常是瞬时且在时间上局部化的，这意味着音频语义特征向视觉语义特征空间的投影应该是稀疏的。同样，与RGB相比，光流模态侧重于动态细节，而RGB包含更全面的信息；因此，光流模态在RGB特征空间中的投影也应该是稀疏的。因此，我们将RGB视为主要模态，并在RGB模态的特征空间中识别出两个模态特征匹配子空间，一个用于音频，一个用于光流。

在识别模态特征匹配子空间（MFMS）之前，我们固定RGB语义特征，并通过单独的投影层来处理音频和光流语义特征，每个投影层都由三层多层感知机（MLP）组成。这种方法背后的原理是，RGB作为主要模态，提供了主要的结构信息，而音频和光流作为辅助模态，嵌入到这个主要结构中以提供局部细节。因此，这两种模态需要主动与RGB模态对齐。这些投影层在单模态语义特征提取模型的基础上提供了额外的结构，以促进这种主动对齐。音频和光流特征的投影过程可以描述如下：

\[\hat{z_{A}}=Projection_{A}\left(z_{A}\right), (12)\]

\[\hat{z_{F}}=Projection_{F}\left(z_{F}\right) . (13)\]

搜索模态特征匹配子空间（MFMS）的过程如算法1所示。首先，根据当前批量大小的信息，计算主要模态和次要模态的特征维度之间的相似度矩阵。然后，基于这个相似度矩阵，我们确定主要模态高维空间中的哪些维度与次要模态低维空间中的特征维度相对应。在确定了相应的模态维度之后，将次要模态的特征嵌入到主要模态的特征空间中，从而形成一个新的稀疏次要模态特征。这个过程可以简洁地表示为：

\[\tilde{z_{A}}=Sparse_{A}\left(\hat{z_{A}} | MFMS of z_{R}\right. for \left.\hat{z_{A}}\right), \quad (14)\]

\[\tilde{z_{F}}=Sparse_{F}\left(\hat{z_{F}} | MFMS of z_{R}\right. for \left.\hat{z_{F}}\right). (15)\]

在获得稀疏的音频和光流特征后，就可以进行首次对齐。这个对齐过程是通过最小化三种损失来实现的，这些损失旨在提高三种模态之间的成对相似度：

\[\mathcal{L}_{RA}^{Cos}=1 - 余弦相似度\left(z_{R}, \tilde{z_{A}}\right),\] \[\mathcal{L}_{RF}^{Cos}=1 - 余弦相似度\left(z_{R}, \tilde{z_{F}}\right), (17)\] \[\mathcal{L}_{AF}^{Cos}=1 - 余弦相似度\left(\tilde{z_{A}}, \tilde{z_{F}}\right) . (18)\]

其中\(x\)和\(y\)之间的余弦相似度定义为：

\[余弦相似度(x, y)=\frac{x \cdot y}{\| x\| _{2}\| y\| _{2}} . (19)\]

如图3所示，在搜索模态特征匹配子空间（MFMS）并嵌入特征之后，整个RGB特征空间被划分为四个部分：RGB-音频-光流模态特征匹配子空间、RGB-音频模态特征匹配子空间、RGB-光流模态特征匹配子空间以及纯RGB部分。这表明事件中的某些语义信息是由三种模态共同表达的，有些是由RGB和音频或光流两种模态共同表达的，而有些则仅由RGB模态表达。上述三种损失本质上是拉近了多种模态共同表达的特征之间的距离，在表示同一事件时增强了不同模态之间的关系。这使得共享信息最大化，并帮助融合模型更好地理解和关联来自不同模态的互补信息，从而减少冗余信息的影响。从另一个角度来看，这些损失只会拉近模态之间相关性最强的维度，这有助于模型在训练迭代过程中找到最优的模态特征匹配子空间。

此外，我们对投影层之后的音频特征\(\hat{z_{A}}\)和光流特征\(\hat{z_{F}}\)施加约束，以确保模态特征在时间序列上的对齐。这可以看作是对齐的第二阶段。

图3. 通过搜索模态特征匹配子空间（MFMS），整个RGB特征空间被划分为四个不同的部分：RGB-音频-光流模态特征匹配子空间、RGB-音频模态特征匹配子空间、RGB-光流模态特征匹配子空间以及纯RGB部分。

首先，为了确保投影层之后的特征不会丢失与事件相关的语义信息，需要进行一次回归操作。回归层沿用前一阶段的设置，并且结果由多示例学习（MIL）损失来约束，具体如下：

\[\hat{s_{A}} = Regressor_{A}(\hat{z_{A}}), \hat{\mathcal{L}}_{A}^{MIL} = MIL(\hat{s_{A}}, y) . (20)\]

\[\hat{s_{F}} = Regressor_{F}(\hat{z_{F}}), \hat{\mathcal{L}}_{F}^{MIL} = MIL(\hat{s_{F}}, y) .(21)\]

其次，我们通过使用三个损失函数来最小化时间序列中的成对差异，从而对齐每个模态的异常分数序列，即\(\hat{s_{A}}\)、\(\hat{s_{F}}\)和\(s_{R}\)（RGB模态的异常分数序列，与前一阶段保持相同）：

\[\mathcal{L}_{R A}^{S-CE}= \text{Score-CrossEntropy}\left(s_{R}, \hat{s_{A}}\right),\]

\[\mathcal{L}_{R F}^{S-CE}= \text{Score-CrossEntropy}\left(s_{R}, \hat{s_{F}}\right),\]

\[\mathcal{L}_{A F}^{S-CE}= \text{Score-CrossEntropy}\left(\hat{s_{A}}, \hat{s_{F}}\right) 。(24)\]

其中\(p\)和\(q\)之间的分数交叉熵定义为：

\[\begin{aligned} \text{Score-CrossEntropy} (p, q)&= -\frac{1}{N} \sum_{i = 1}^{N}\left[\text{clamp}\left(p_{i}, \epsilon, 1 - \epsilon\right) \log\left(\text{clamp}\left(q_{i}, \epsilon, 1 - \epsilon\right)\right)\right.\\ &\left. + \left(1 - \text{clamp}\left(p_{i}, \epsilon, 1 - \epsilon\right)\right) \log\left(1 - \text{clamp}\left(q_{i}, \epsilon, 1 - \epsilon\right)\right)\right]。 \end{aligned}\]

其中\(p_{i}\)和\(q_{i}\)分别是向量\(\boldsymbol{p}\)和\(\boldsymbol{q}\)的第\(i\)个元素，\(N\)是向量中的元素数量。钳制操作定义为：

\[ \text{clamp}(x, \epsilon, 1 - \epsilon)=\max(\epsilon, \min(x, 1 - \epsilon)) , (26)\]

其中\(\epsilon\)是一个小常数，用于避免对零取对数时出现的问题。

公式（22）、（23）和（24）定义了损失函数，该函数通过最小化不同模态的异常分数序列之间的差异，使投影模型能够捕捉跨模态的因果关系。简单来说，它识别出那些容易受到模态不同步影响的特征，并进行自适应的“补偿”，以减轻不一致性。基于上述讨论，模态对齐损失可以定义为三种模态之间的成对对齐：

\[\mathcal{L}_{R A F}^{M A}=\mathcal{L}_{R A}^{Aligning }+\mathcal{L}_{R F}^{Aligning }+\mathcal{L}_{A F}^{Aligning } 。(27)\]

其中，

\(\mathcal{L}_{RA}^{\text{Aligning}} = \mathcal{L}_{RA}^{\text{Cos}} + \mathcal{L}_{RA}^{\text{S-CE}}\) ，（28）

\(\mathcal{L}_{RF}^{\text{Aligning}} = \mathcal{L}_{RF}^{\text{Cos}} + \mathcal{L}_{RF}^{\text{S-CE}}\) ，（29）

\(\mathcal{L}_{AF}^{\text{Aligning}} = \mathcal{L}_{AF}^{\text{Cos}} + \mathcal{L}_{AF}^{\text{S-CE}} + \lambda \cdot (\hat{\mathcal{L}}_{A}^{\text{MIL}} + \hat{\mathcal{L}}_{F}^{\text{MIL}})\) 。（30）

由于\(\hat{\mathcal{L}}_{A}^{\text{MIL}}\)和\(\hat{\mathcal{L}}_{F}^{\text{MIL}}\)仅作为辅助项，我们将\(\lambda\)设为\(0.01\)。

3.3 Multimodal Fusion and Violence Detection

由于对齐后每种模态特征的可用性得到了显著提升，模型的这一部分保持相对简单。它由一个用于融合模态特征的多模态编码器以及一个用于计算最终异常分数的回归层组成。

多模态编码器的输入是新融合的特征，该特征是通过连接每种模态已对齐的特征而形成的：

\[z_{RAF} = [\hat{z_{A}} \left\| z_{R} \right\| \hat{z_{F}}] 。(31)\]

多模态编码器由一个全连接层（Linear层）和一个时间卷积网络（TCN）模块组成。全连接层由两个多层感知机（MLP）层构成，负责对模态特征进行加权融合，以形成一个统一的表示。时间卷积网络模块则用于在更高层次上进一步合并特征，捕捉时间依赖性和更抽象的模式。这个过程可以描述为：

\[z_{RAF} = \text{TCN}(\text{Linear}(z_{RAF})) 。(32)\]

有两个重要的点需要进一步说明：1）不使用稀疏特征\(\overline{z_{A}}\)和\(\widetilde{z_{F}}\)：这些特征不够“紧凑”，可能会干扰融合模型。此外，在推理阶段，使用它们会增加模型的复杂度。它们的作用在模态对齐过程中已经完成，在该过程中它们已实现了自身的用途。2）使用时间卷积网络（TCN）模块而非Transformer：虽然Transformer更适合处理长期依赖关系，但在我们的框架中，单模态部分已经解决了长期依赖关系和全局特征提取的问题。对齐阶段也考虑了各模态的整个时长来进行对齐。然而，在最后的融合阶段，我们无需过于关注全局信息。相反，任务是输出帧级别的预测，这与局部特征的关系更为密切。此外，在这种情况下，时间卷积网络（TCN）效率更高，因为它们减少了参数数量并提高了计算效率。

此阶段的回归层同样由三个多层感知机（MLP）层组成。回归层计算异常分数序列的过程可以表示为：

\[s_{RAF} = \text{Regressor}_{RAF}(\hat{z_{RAF}}) 。(33)\]

在这种情况下，多示例学习（MIL）损失也采用了前\(K\)模式，可简单表示为：

\[\mathcal{L}_{RAF}^{\text{MIL}} = \text{MIL}_{\text{top-K}}(s_{RAF}, y) 。(34)\]

此外，为了增强融合特征对异常样本的判别能力，我们针对这项任务设计了一个三元组损失函数（见文献[37]），如算法2所述。基于视频级别的标签，一个批次内的所有异常分数序列和多模态融合特征被分为两类：正常和异常。

在三元组损失函数中，锚点被定义为正常类别中前\(k\)个异常分数所对应的特征的平均值。正样本被定义为异常类别中最小的\(k\)个异常分数所对应的特征的平均值，而负样本被定义为异常类别中最大的\(k\)个异常分数所对应的特征的平均值。这种设定确保了锚点（正常类别）被拉近与正样本（异常类别中最小的异常分数所对应的特征）的距离，同时与负样本（异常类别中最大的异常分数所对应的特征）保持较大的距离。

计算三元组损失的过程可以简单表示为：

\[\mathcal{L}_{RAF}^{\text{三元组}} = \Psi(z_{\hat{RAF}}, s_{RAF}, y) ，(35)\]

其中\(\Psi\)表示计算三元组损失的过程。

3.4 Loss Functions

基于上述内容，我们的损失函数由四个部分组成：

• 用于从每个模态中提取语义特征的单模态多示例学习损失：\(\mathcal{L}_{RAF}^{U - MIL}=\mathcal{L}_{R}^{MIL}+\mathcal{L}_{A}^{MIL}+\mathcal{L}_{F}^{MIL}\)。

• 模态对齐损失：\(\mathcal{L}_{RAF}^{MA}\)。

• 多模态多示例学习损失：\(\mathcal{L}_{RAF}^{M - MIL}\)。

• 用于增强融合特征对异常样本判别能力的三元组损失：\(\mathcal{L}_{RAF}^{Triplet}\) 。

因此，训练期间的总损失函数可以表示为：

\[\mathcal{L}=\mathcal{L}_{RAF}^{U - MIL}+\lambda_{1} \cdot \mathcal{L}_{RAF}^{MA}+\lambda_{2} \cdot \mathcal{L}_{RAF}^{M - MIL}+\lambda_{3} \cdot \mathcal{L}_{RAF}^{Triplet} 。(36)\]

其中，\(\lambda_{1}\)、\(\lambda_{2}\) 和 \(\lambda_{3}\) 是超参数，用于控制每个损失分量的相对重要性。

3.5 Inference

推理阶段如图4所示。其结构相当简单，包括两个阶段：阶段1：对每个模态进行特征提取；阶段2：融合多模态特征并计算视频数据（VD）的异常分数。

图4. 我们的推理过程概述。该过程包括两个阶段：阶段1，对每个模态进行特征提取；阶段2，融合多模态特征并计算暴力行为分数。

在阶段1中，输出的是来自每个模态的对齐特征。我们已将这部分的模型参数公开，因此未来的研究可以轻松地在我们的模型基础上进行拓展，并基于这些对齐特征探索其他多模态融合方法。

4 Experiment

为了评估我们方法的泛化能力和鲁棒性，我们设计了一系列对比实验，以研究不同方法在各种训练集比例和测试子集下的准确率表现。此外，我们还分析了在训练阶段应用不同的帧丢弃率时，每种方法的性能变化情况。对比方法包括两种典型的三模态融合策略：吴等人[10]提出的直接拼接融合方法和MSBT[12]的加权融合方法，以及一种独特的基于自蒸馏的双模态融合方法，即MACIL-SD[14]。

如表2所示，我们从XD-Violence训练集中随机选取了不同比例（30%和70%）的样本，以组成新的训练集，并将测试集平均分成两个子集，即测试集A和测试集B。基于这样的配置，我们比较了各种方法在不同的训练和测试条件下的准确率表现，以此来验证它们在不同数据分布下的泛化能力。实验结果表明，弱监督多模态暴力行为检测方法的性能与训练数据集的规模呈正相关；随着训练数据量的增加，所有方法的性能都有所提升。在使用30%训练集的条件下，我们的方法在测试集A和测试集B上分别达到了83.56%和82.80%的平均精度（AP），显著优于其他竞争方法。当训练集比例增加到70%时，我们的方法进一步将平均精度提升至85.09%（测试集A）和83.03%（测试集B），仍然明显高于其他方法。这充分证明了我们的方法在不同数据分布下具有卓越的泛化能力。

我们对XD-Violence训练集中每个样本的模态数据应用了不同的帧丢弃率（10%、30%和50%），以构建新的数据集，模拟现实场景中的模态缺失情况，然后观察不同方法的性能变化。如表3所示，尽管所有方法的平均精度（AP）都随着帧丢弃率的增加而降低，但我们的方法始终优于其他方法。值得注意的是，在10%和30%的帧丢弃率条件下，我们的方法分别达到了84.30%和81.56%的平均精度（而其他方法的平均精度在78.41%到80.47%之间）。即使在帧丢弃率高达50%的极端条件下，我们的方法仍保持78.22%的平均精度，超过了其他方法的性能。这充分验证了我们的方法在处理不完整输入时的鲁棒性。

表4展示了在XD-Violence基准测试上，三种典型的三模态融合方法在模型复杂度和推理效率方面的对比分析。该表列出了参数数量（单位：百万）、每个样本的平均推理时间（单位：秒）以及检测准确率（平均精度，AP%）。可以看出，吴等人提出的直接拼接融合方法得益于其简单的结构，实现了最快的推理速度，且参数数量相对较少，不过其检测性能有限。相比之下，MSBT方法凭借其复杂的模态加权融合机制，有效地提高了检测准确率，尽管这是以增加模型复杂度和降低推理速度为代价的。相较之下，我们的方法在保持较低的总参数数量和较快推理速度的同时，实现了最高的检测准确率。

5 Conclusion

在本文中，我们提出了一种新颖的基于“先对齐，后融合”原则的弱监督多模态暴力行为检测方法。与许多专注于多模态融合的现有方法不同，我们的方法在融合之前优先对齐特定模态的语义特征。通过利用模态之间的内在差异，我们基于音频、光流和RGB在事件表示上的一致性来对齐它们的语义特征，从而提高了这些特征的可用性。

具体而言，对齐过程的核心在于在RGB特征空间中识别出模态特征匹配子空间（MFMSs），这些子空间在事件表示方面与信息含量较少的模态（例如音频和光流）最为相关。然后，基于这些模态特征匹配子空间，将这些特征稀疏映射到信息更丰富的RGB空间中。接着，通过最小化它们之间的距离，将稀疏的音频和光流特征与RGB特征进行对齐。这一过程拉近了跨模态共享的特征之间的距离，在表示同一事件时加强了不同模态之间的联系。这最大限度地增加了共享信息，帮助融合模型更好地关联互补信息，并减少了冗余数据的影响。对齐过程是动态且迭代的，最终会识别出最合适的模态特征匹配子空间，从而实现最高的检测准确率。

在XD-Violence数据集上的实验结果证明了我们“先对齐，后融合”策略的有效性，达到了86.07%的帧级平均精度（AP）。这一结果优于现有方法，突显了我们的方法在多模态暴力行为检测中的优势，为弱监督多模态暴力行为检测提供了一个很有前景的解决方案。