VMamba笔记

在大规模数据集上的功效。然而现有的预训练方法与 VMamba 的兼容性，以及专门针对此类模型定制的预训练技术的识别，仍未得到探索。优势：VMamba 的线性时间复杂度使其对于具有。基于 SSM 的模块。

Ting_King_ing

1918人浏览 · 2024-07-12 20:00:09

Ting_King_ing · 2024-07-12 20:00:09 发布

没想到会有人看..

文末附上论文和代码的网页链接

现有视觉学习骨干：
- 卷积神经网络CNN：为了提高CNN的灵活性和效率，人们提出了更复杂的算子。从Transformers中汲取灵感，将长程依赖性和动态权重纳入其架构设计
- 视觉转换器ViTs：基于vanilla Transformer架构，比起CNN有更强的学习力。然而自注意力在大空间分辨率下有着大量的计算开销。为了减轻ViT对超大数据集的依赖，引入了一种师生蒸馏策略
新的状态空间模型（SSM）：线性复杂度长序列建模方法，即输入数据的规模并不会明显影响模型性能。现有结构化 SSM 模型主要侧重于将 SSM 应用于长距离和顺序数据（如文本和语音），但对 SSM 在具有二维结构的视觉数据中的应用探索有限。

Mamba核心算法：并行化选择性扫描操作，本质上是为处理一维顺序数据而设计
VMamba 集成了基于 SSM 的模块的视觉主干，是一个在线性时间复杂度下工作的视觉骨干。
VMamba核心：
- 二维选择性扫描（SS2D）：为空间域遍历量身定制的四向扫描机制，与自注意力（a）相比，确保每个图像补丁仅通过沿相应扫描路径计算的压缩隐藏状态获得上下文知识（b），从而将计算复杂度从二次降低到线性
- VSS模块

VMamba分为三种规模
- VMamba-Tiny 下图(a)
  - 首先通过 stem 模块划分成多个块得到 H/4 × W/4 的 2D 特征图
  - 多个网络阶段创建不同分辨率的分层表示。除第一个外，每一个都包含：
    - 下采样
    - VSS 图(b)为在Mamba中的对应物；图(c)为替换S6模块(仅仅适用于NLP任务)制定的；本文使用图(d)消除红圈的乘法分支，新增两个残差模块
- VMamba-Small
- VMamba-Base

VMamba三种规模的阶段设置

SS2D包括三个步骤
- 交叉扫描：将输入补丁沿四个不同的遍历路径展开为序列
- 使用 S6 块的选择性扫描：处理每个补丁序列
- 使用 S6 块的交叉合并：重塑和合并结果序列以形成输出映射

总结

优势：VMamba 的线性时间复杂度使其对于具有高分辨率输入的下游任务具有优势

局限：验证了无监督预训练在大规模数据集上的功效。然而现有的预训练方法与 VMamba 的兼容性，以及专门针对此类模型定制的预训练技术的识别，仍未得到探索。

论文链接

代码链接

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

[ 开源 ] FastAPI + LangGraph 实战智能客服 Agent：从工单分类到自动回复与业务回写附github

2048 AI社区

一文分清Agent与Skill

2048 AI社区

大厂Java面试实战：Spring Boot/Cloud、Redis/Kafka、JVM调优与Spring AI RAG（内容社区UGC+AIGC客服场景）

以“内容社区+UGC+AIGC智能客服”为业务背景，模拟大厂Java面试：严肃面试官循序渐进提问Spring Boot/Cloud、JVM、Redis、Kafka、数据库、观测、CI/CD与Spring AI/RAG/Agent等，小Y简单题会答复杂题含糊。文末给出每题详细答案与落地方案，便于小白系统学习。