计算机视觉中的图像特征提取:从传统算法到深度学习的演进
从 HOG、LBP 等传统手工特征,到 SIFT 的 “全能”,再到 CNN 的 “自动学习”,图像特征提取的发展体现了计算机视觉从 “规则驱动” 到 “数据驱动” 的跨越。未来,随着大模型、自监督学习的发展,特征提取可能会更高效、更通用,让计算机 “看懂” 图像的能力越来越接近人类,甚至在某些场景中超越人类。
在计算机视觉领域,图像特征提取是感知世界、理解图像的关键一步。它就像为计算机装上 “眼睛” 和 “大脑”,让机器能从像素中挖掘出有价值的信息。今天,我们就来聊聊从传统手工设计特征到深度学习特征的那些经典方法,看看它们是如何让计算机 “看懂” 图像的。
一、传统图像特征提取:手工设计的智慧
在深度学习兴起前,研究者们通过手工设计规则来提取图像特征,这些方法至今仍在一些场景中发光发热。
1. HOG(方向梯度直方图):为目标检测 “画像”
HOG 特征专为目标检测而生,它的核心是捕捉图像中物体的形状结构。
- 算法流程:
- 图像预处理:先对图像做灰度化、归一化,减少光照等因素的干扰。
- 计算梯度:在每个像素点上,计算水平和垂直方向的梯度(即像素变化的快慢和方向),这一步能突出物体的边缘和轮廓。
- 统计 Cell 梯度直方图:把图像分成多个小 “Cell”,在每个 Cell 内统计梯度方向的分布,形成直方图。
- Block 归一化:将几个 Cell 组成一个 “Block”,对 Block 内的梯度直方图做归一化,进一步降低光照影响。
- 拼接特征向量:把所有 Block 的特征拼接起来,就得到了描述整个图像区域的 HOG 特征。
- 应用场景:行人检测是它的经典战场,比如在监控场景中识别行人,HOG 曾是主流方案之一。
- 局限性:对旋转、尺度变化的鲁棒性不足,一旦目标旋转或缩放,特征就会 “失效”。
2. LBP(局部二值模式):纹理特征的 “指纹”
LBP 专注于纹理特征,它就像给纹理 “拍指纹”,能区分不同的表面质感(比如粗糙的树皮和光滑的金属)。
- 核心思想:
- 滑动窗口:用一个固定大小的窗口在图像上滑动。
- 二值比较:将窗口中心像素与周围像素的灰度值比较,大于等于中心则记为 1,否则记为 0,形成一个二进制数。
- 数值转换:把二进制数转成十进制,这个数值就是该区域的 LBP 特征。
- 进阶优化:为了应对尺度和旋转问题,研究者提出了多尺度 LBP(扩大窗口覆盖不同尺度)和旋转不变 LBP(将所有旋转后的 LBP 值取最小,保证旋转后特征不变)。
- 应用:纹理分类(比如区分不同面料)、人脸检测中都能看到它的身影。
3. HARR 特征:简单却有效的 “视觉积木”
HARR 特征是人脸检测的 “元老级” 方法,它通过简单的 “黑白块” 组合来捕捉人脸的结构(比如眼睛是深色块、脸颊是浅色块)。
- 特征类型:包括边缘特征、线特征、中心特征和对角特征。比如 “边缘特征” 能捕捉横竖边缘,“中心特征” 能区分中心与周围的灰度差异。
- 积分图加速:为了高效计算 HARR 特征,引入了 “积分图” 技术,把原本复杂的区域灰度和计算,简化为几次加减运算,极大提升了速度。
- 局限性:对光照变化很敏感,一旦光照不均匀,特征就会不稳定。
二、SIFT(尺度不变特征变换):特征提取的 “全能选手”
SIFT 是传统特征中的 “王者”,它实现了尺度、旋转、光照不变性,堪称 “全能型选手”。
- 提取步骤:
- 尺度空间极值检测:在不同尺度(可以理解为不同大小)的图像上,通过高斯金字塔和差分金字塔寻找 “关键点”(即图像中最具代表性的点,比如角点、边缘点)。
- 关键点定位与尺度确定:精确找到关键点的位置和对应的尺度,确保尺度不变性。
- 关键点方向确定:为每个关键点赋予方向,保证旋转不变性。
- 特征向量生成:在关键点周围的区域内,统计梯度方向的直方图,生成具有唯一性的特征向量。
- 应用:图像拼接、目标跟踪、场景识别等领域都有它的身影。比如把多张重叠的风景照拼成全景图,SIFT 能精准匹配不同照片中的同名点。
三、深度学习时代:卷积神经网络的 “特征革命”
深度学习的到来,让图像特征提取进入了端到端学习的新时代,其中卷积神经网络(CNN) 是绝对的主角。
卷积神经网络:让特征 “自动生长”
CNN 的核心是卷积层,它模拟人类视觉的 “层级感知”:底层检测边缘、纹理,中层组合成形状、部件,高层形成完整的物体概念。
- 卷积运算:通过卷积核(可理解为 “视觉过滤器”)与图像做卷积,提取局部特征。比如一个卷积核可能专门检测 “竖直线条”,另一个检测 “圆形边缘”。
- 特征不变性:
- 局部感知:每个神经元只关注局部区域,模拟人类视觉的 “局部关注” 特性。
- 权值共享:同一卷积核在图像上滑动时权值不变,大幅减少参数数量。
- 不变性保障:通过池化、裁剪、旋转等数据增强手段,让 CNN 学到的特征具备尺度、旋转不变性。
- 应用:从 ImageNet 大赛上的图像分类,到自动驾驶中的目标检测,再到医疗影像中的病变识别,CNN 无处不在。
四、总结:特征提取的 “过去与未来”
从 HOG、LBP 等传统手工特征,到 SIFT 的 “全能”,再到 CNN 的 “自动学习”,图像特征提取的发展体现了计算机视觉从 “规则驱动” 到 “数据驱动” 的跨越。未来,随着大模型、自监督学习的发展,特征提取可能会更高效、更通用,让计算机 “看懂” 图像的能力越来越接近人类,甚至在某些场景中超越人类。
更多推荐



所有评论(0)