多模态视觉数据集在 目标检测、行人检测、自动驾驶、红外–可见光图像融合、多模态深度学习 等领域具有重要作用。红外图像在低光/夜间场景具有更高鲁棒性,而可见光图像拥有更丰富的纹理信息,通过 RGB + IR 的融合或协同学习,可显著提升模型性能。

本文总结最常使用的 五个多模态(RGB + IR)公开数据集

  • LLVIP

  • M3FD

  • KAIST Multispectral Pedestrian Dataset

  • FLIR ADAS

  • VEDAI

1. LLVIP Dataset

简介

LLVIP(Labeled Low-light visible-infrared Person)是近年来广泛使用的低光行人检测数据集,由西安电子科技大学发布,旨在解决低照度环境下可见光图像退化严重的问题,通过引入红外图像提升检测能力。

数据规模

  • 总图像数:15488 对 RGB–IR 图像(同步)

  • 标注:行人框(bbox)

  • 训练集:80%

  • 测试集:20%

特点

  • 场景多为 夜间、低光、极暗环境

  • 红外图像清晰度高,可见光图像噪声严重

  • 适用于:

    • 夜间行人检测

    • RGB–IR 融合

    • 可见光低光增强 + 检测联合任务

适用研究方向

  • 多模态行人检测

  • 低光增强 + 检测

2. M3FD Dataset(Multispectral Multi-level Multi-scene Pedestrian Dataset)

简介

M3FD 是中国科学院发布的多光谱行人检测数据集,覆盖多场景、多光照、多天气条件,是目前使用频率较高且标注较精细的 RGB + IR 数据集之一。

数据规模

  • 4,200+ 对 RGB–IR 图像

  • 标注对象:行人、骑行者、车辆、背景类等(多类目标)

特点

  • 场景覆盖:

    • 白天 / 夜间

    • 雨、雾、阴天等恶劣天气

    • 城市道路、校园、商区、多环境

  • 数据多样性强,非常适合鲁棒性研究

3. KAIST Multispectral Pedestrian Dataset

简介

KAIST 是最经典、最早被大规模应用的多光谱行人检测数据集,由 KAIST(韩国科学技术院)提供。因其规模大、场景丰富、同步标注标准化,被视为该方向最具代表性的数据集。

数据规模

  • 95,000+ 对 RGB–IR 图像

  • 标注:行人框(精细区分是否可见)

  • 视频序列采集(连续帧场景)

特点

  • 白天 + 夜间场景比例平衡

  • 多样化背景(城市、高速公路、校园)

  • 是各种多模态检测论文的常用 benchmark

4. FLIR ADAS Dataset

简介

FLIR ADAS 是自动驾驶领域最代表性的红外数据集之一,用于目标检测、感知、环境理解等任务。提供同步 RGB 与长波红外(LWIR)图像。

数据规模

  • 10,000+ 对 RGB–Thermal 图像(版本 1)

  • 提供 bounding boxes(人、车、自行车等)

特点

  • 以自动驾驶场景为主(道路、城市街道、郊区)

  • 热成像图像分辨率高,适合检测、分割任务

  • 场景包含:

    • 夜间

    • 晴天/阴天

    • 光照变化大

5. VEDAI Dataset(Vehicle Detection in Aerial Imagery)

简介

VEDAI 是用于航拍车辆检测的多模态数据集,RGB + IR 配对,并标注各类陆地车辆。适用于遥感、军事、城市管理等领域。

数据规模

  • 1,200+ 图像(RGB + IR)

  • 标注车辆类别(汽车、卡车、箱式车等)

特点

  • 航拍图像,绝大多数数据集中缺少的角度

  • 车辆尺度小、背景复杂

  • 分辨率较高(512×512)

6. 数据集对比总结表

数据集 RGB+IR同步 主要任务 图像数量 场景类型 标注类型
LLVIP 夜间行人检测 15k 低光、夜间 行人 bbox
M3FD 多类目标检测 4k+ 多光照、多天气 行人/车/骑行者
KAIST 行人检测 95k 城市道路、白天/夜间 行人 bbox
FLIR ADAS 自动驾驶检测 10k+ 道路场景 行人/车辆
VEDAI 遥感车辆检测 1.2k 航拍、高分辨率 多类车辆

7. 适用任务总结

任务 可用数据集
多模态目标检测 M3FD / KAIST / FLIR
行人检测(夜间/难光照) LLVIP / KAIST
自动驾驶感知 FLIR / KAIST
红外–可见光图像融合 LLVIP / FLIR / KAIST
航拍车辆检测 VEDAI

8. 结语

多模态(RGB + IR)数据在复杂环境感知中具有不可替代的作用。本文总结的五个典型数据集(LLVIP、M3FD、KAIST、FLIR、VEDAI)在行人检测、自动驾驶、多模态融合等方向广泛使用,并提供了统一的数据组织结构,方便研究者快速上手模型训练。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐