AiATrack: Attention in Attention for Transformer Visual Tracking模型及代码结构解读

典型的Transformer跟踪框架中，通过自注意力模块增强参考帧和搜索帧的特征表示，并通过交叉注意力模块桥接它们之间的相关性，以在搜索帧中预测目标。作者引入了AiA（Attention in Attention）模块，字面意思，就是在一个Attention中，再引入一个Attention，并把该模块作为Encoder和Decoder的basis。，但是令人费解的是，这么庞大的网络结构，这么多的参

Soonki

1368人浏览 · 2024-03-13 16:17:24

Soonki · 2024-03-13 16:17:24 发布

论文地址
 代码地址

Introduction

典型的Transformer跟踪框架中，通过自注意力模块增强参考帧和搜索帧的特征表示，并通过交叉注意力模块桥接它们之间的相关性，以在搜索帧中预测目标。这种机制通过QK的点积来计算相关性图，但独立计算每对QK的相关性可能会忽略它们之间的相互作用，从而在复杂背景中引入误差。这可能导致注意力权重变得不准确，影响跟踪性能。

所以：
作者引入了AiA（Attention in Attention）模块，字面意思，就是在一个Attention中，再引入一个Attention，并把该模块作为Encoder和Decoder的basis。

Method

在这里插入图片描述

作者引入的AiA模块，就是基于 $\otimes K}$ 的值，在代码中叫做 ${corr}$ _ ${map}$ ，将其与 $\times W, B, C=64]}$ 的位置嵌入 ${inr \_ emb}$ 作为输入，进行二次注意力计算，这大概就是Attention in Attention名字的由来吧。

在这里插入图片描述作者基于上述的AiA module，

构建了一个3层Encoder layer的Encoder和一层Decoder layer的Decoder，作为模型的主模块，
backbone为ResNet50，输出为layer3
Head部分由一个CornerHead和一个IoUNet构成

关于输入采样：

Search Image采样一张
Reference Image采样两张

实验结果和我个人的理解

作者提出的模型效果真的很好，LaSOT测试集上的AUC效果直接干到了 ${69.0}$ ，但是令人费解的是，这么庞大的网络结构，这么多的参数，在一个2080Ti显卡上居然能有38FPs

在这里插入图片描述我是持怀疑态度的，最近正好在跑Mainstream模型在2080Ti显卡上的FPs，结果还需要挺久才能出来所以这里就先留一个悬念吧。

细化的网络模型和代码结构

详细代码就不上了，太枯燥了，直接放上代码的导图，仔细看，很细的哟
从这里就可以看出来，这个模型确实有点过于庞大，所以我才有怀疑模型的运行速度的
在这里插入图片描述由于版面限制，这里是普通清晰度的，高清大图点这里

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一键生成最终视频成片的 APP 专业测评：当“成片”成为标准，哪些工具还能站得住？

以往用 AI 视频工具，我已经很少被“新功能”吸引了。不是一段画面素材，不是静音视频，也不是“还差最后一步”的半成品。基于这个前提，这篇文章我会从。

2048 AI社区

AI辅助企业品牌资产评估：多维度品牌价值量化与追踪系统

在当今竞争激烈的商业环境中，品牌已成为企业最重要的资产之一。准确评估品牌价值对于企业的战略决策、投融资、市场竞争等方面都具有至关重要的意义。传统的品牌资产评估方法往往存在主观性强、数据获取困难、评估维度单一等问题，难以全面、准确地反映品牌的真实价值。本研究的目的在于开发一个基于AI的多维度品牌价值量化与追踪系统，利用先进的人工智能技术，整合多源数据，从多个维度对企业品牌价值进行量化评估，并实现对品