多模态(RGB + IR)视觉数据集总结:LLVIP / M3FD / KAIST / FLIR / VEDAI
等领域具有重要作用。红外图像在低光/夜间场景具有更高鲁棒性,而可见光图像拥有更丰富的纹理信息,通过 RGB + IR 的融合或协同学习,可显著提升模型性能。并提供统一的数据集组织结构示例。
多模态视觉数据集在 目标检测、行人检测、自动驾驶、红外–可见光图像融合、多模态深度学习 等领域具有重要作用。红外图像在低光/夜间场景具有更高鲁棒性,而可见光图像拥有更丰富的纹理信息,通过 RGB + IR 的融合或协同学习,可显著提升模型性能。
本文总结最常使用的 五个多模态(RGB + IR)公开数据集:
-
LLVIP
-
M3FD
-
KAIST Multispectral Pedestrian Dataset
-
FLIR ADAS
-
VEDAI
1. LLVIP Dataset
简介
LLVIP(Labeled Low-light visible-infrared Person)是近年来广泛使用的低光行人检测数据集,由西安电子科技大学发布,旨在解决低照度环境下可见光图像退化严重的问题,通过引入红外图像提升检测能力。
数据规模
-
总图像数:15488 对 RGB–IR 图像(同步)
-
标注:行人框(bbox)
-
训练集:80%
-
测试集:20%
特点
-
场景多为 夜间、低光、极暗环境
-
红外图像清晰度高,可见光图像噪声严重
-
适用于:
-
夜间行人检测
-
RGB–IR 融合
-
可见光低光增强 + 检测联合任务
-
适用研究方向
-
多模态行人检测
-
低光增强 + 检测
2. M3FD Dataset(Multispectral Multi-level Multi-scene Pedestrian Dataset)
简介
M3FD 是中国科学院发布的多光谱行人检测数据集,覆盖多场景、多光照、多天气条件,是目前使用频率较高且标注较精细的 RGB + IR 数据集之一。
数据规模
-
4,200+ 对 RGB–IR 图像
-
标注对象:行人、骑行者、车辆、背景类等(多类目标)
特点
-
场景覆盖:
-
白天 / 夜间
-
雨、雾、阴天等恶劣天气
-
城市道路、校园、商区、多环境
-
-
数据多样性强,非常适合鲁棒性研究
3. KAIST Multispectral Pedestrian Dataset

简介
KAIST 是最经典、最早被大规模应用的多光谱行人检测数据集,由 KAIST(韩国科学技术院)提供。因其规模大、场景丰富、同步标注标准化,被视为该方向最具代表性的数据集。
数据规模
-
95,000+ 对 RGB–IR 图像
-
标注:行人框(精细区分是否可见)
-
视频序列采集(连续帧场景)
特点
-
白天 + 夜间场景比例平衡
-
多样化背景(城市、高速公路、校园)
-
是各种多模态检测论文的常用 benchmark
4. FLIR ADAS Dataset

简介
FLIR ADAS 是自动驾驶领域最代表性的红外数据集之一,用于目标检测、感知、环境理解等任务。提供同步 RGB 与长波红外(LWIR)图像。
数据规模
-
10,000+ 对 RGB–Thermal 图像(版本 1)
-
提供 bounding boxes(人、车、自行车等)
特点
-
以自动驾驶场景为主(道路、城市街道、郊区)
-
热成像图像分辨率高,适合检测、分割任务
-
场景包含:
-
夜间
-
晴天/阴天
-
光照变化大
-
5. VEDAI Dataset(Vehicle Detection in Aerial Imagery)

简介
VEDAI 是用于航拍车辆检测的多模态数据集,RGB + IR 配对,并标注各类陆地车辆。适用于遥感、军事、城市管理等领域。
数据规模
-
1,200+ 图像(RGB + IR)
-
标注车辆类别(汽车、卡车、箱式车等)
特点
-
航拍图像,绝大多数数据集中缺少的角度
-
车辆尺度小、背景复杂
-
分辨率较高(512×512)
6. 数据集对比总结表
| 数据集 | RGB+IR同步 | 主要任务 | 图像数量 | 场景类型 | 标注类型 |
|---|---|---|---|---|---|
| LLVIP | ✓ | 夜间行人检测 | 15k | 低光、夜间 | 行人 bbox |
| M3FD | ✓ | 多类目标检测 | 4k+ | 多光照、多天气 | 行人/车/骑行者 |
| KAIST | ✓ | 行人检测 | 95k | 城市道路、白天/夜间 | 行人 bbox |
| FLIR ADAS | ✓ | 自动驾驶检测 | 10k+ | 道路场景 | 行人/车辆 |
| VEDAI | ✓ | 遥感车辆检测 | 1.2k | 航拍、高分辨率 | 多类车辆 |
7. 适用任务总结
| 任务 | 可用数据集 |
|---|---|
| 多模态目标检测 | M3FD / KAIST / FLIR |
| 行人检测(夜间/难光照) | LLVIP / KAIST |
| 自动驾驶感知 | FLIR / KAIST |
| 红外–可见光图像融合 | LLVIP / FLIR / KAIST |
| 航拍车辆检测 | VEDAI |
8. 结语
多模态(RGB + IR)数据在复杂环境感知中具有不可替代的作用。本文总结的五个典型数据集(LLVIP、M3FD、KAIST、FLIR、VEDAI)在行人检测、自动驾驶、多模态融合等方向广泛使用,并提供了统一的数据组织结构,方便研究者快速上手模型训练。
更多推荐



所有评论(0)