在计算机视觉领域,图像特征提取是感知世界、理解图像的关键一步。它就像为计算机装上 “眼睛” 和 “大脑”,让机器能从像素中挖掘出有价值的信息。今天,我们就来聊聊从传统手工设计特征到深度学习特征的那些经典方法,看看它们是如何让计算机 “看懂” 图像的。

一、传统图像特征提取:手工设计的智慧

在深度学习兴起前,研究者们通过手工设计规则来提取图像特征,这些方法至今仍在一些场景中发光发热。

1. HOG(方向梯度直方图):为目标检测 “画像”

HOG 特征专为目标检测而生,它的核心是捕捉图像中物体的形状结构

  • 算法流程
    • 图像预处理:先对图像做灰度化、归一化,减少光照等因素的干扰。
    • 计算梯度:在每个像素点上,计算水平和垂直方向的梯度(即像素变化的快慢和方向),这一步能突出物体的边缘和轮廓。
    • 统计 Cell 梯度直方图:把图像分成多个小 “Cell”,在每个 Cell 内统计梯度方向的分布,形成直方图。
    • Block 归一化:将几个 Cell 组成一个 “Block”,对 Block 内的梯度直方图做归一化,进一步降低光照影响。
    • 拼接特征向量:把所有 Block 的特征拼接起来,就得到了描述整个图像区域的 HOG 特征。
  • 应用场景:行人检测是它的经典战场,比如在监控场景中识别行人,HOG 曾是主流方案之一。
  • 局限性:对旋转、尺度变化的鲁棒性不足,一旦目标旋转或缩放,特征就会 “失效”。

2. LBP(局部二值模式):纹理特征的 “指纹”

LBP 专注于纹理特征,它就像给纹理 “拍指纹”,能区分不同的表面质感(比如粗糙的树皮和光滑的金属)。

  • 核心思想
    • 滑动窗口:用一个固定大小的窗口在图像上滑动。
    • 二值比较:将窗口中心像素与周围像素的灰度值比较,大于等于中心则记为 1,否则记为 0,形成一个二进制数。
    • 数值转换:把二进制数转成十进制,这个数值就是该区域的 LBP 特征。
  • 进阶优化:为了应对尺度和旋转问题,研究者提出了多尺度 LBP(扩大窗口覆盖不同尺度)和旋转不变 LBP(将所有旋转后的 LBP 值取最小,保证旋转后特征不变)。
  • 应用:纹理分类(比如区分不同面料)、人脸检测中都能看到它的身影。

3. HARR 特征:简单却有效的 “视觉积木”

HARR 特征是人脸检测的 “元老级” 方法,它通过简单的 “黑白块” 组合来捕捉人脸的结构(比如眼睛是深色块、脸颊是浅色块)。

  • 特征类型:包括边缘特征、线特征、中心特征和对角特征。比如 “边缘特征” 能捕捉横竖边缘,“中心特征” 能区分中心与周围的灰度差异。
  • 积分图加速:为了高效计算 HARR 特征,引入了 “积分图” 技术,把原本复杂的区域灰度和计算,简化为几次加减运算,极大提升了速度。
  • 局限性:对光照变化很敏感,一旦光照不均匀,特征就会不稳定。

二、SIFT(尺度不变特征变换):特征提取的 “全能选手”

SIFT 是传统特征中的 “王者”,它实现了尺度、旋转、光照不变性,堪称 “全能型选手”。

  • 提取步骤
    • 尺度空间极值检测:在不同尺度(可以理解为不同大小)的图像上,通过高斯金字塔和差分金字塔寻找 “关键点”(即图像中最具代表性的点,比如角点、边缘点)。
    • 关键点定位与尺度确定:精确找到关键点的位置和对应的尺度,确保尺度不变性。
    • 关键点方向确定:为每个关键点赋予方向,保证旋转不变性。
    • 特征向量生成:在关键点周围的区域内,统计梯度方向的直方图,生成具有唯一性的特征向量。
  • 应用:图像拼接、目标跟踪、场景识别等领域都有它的身影。比如把多张重叠的风景照拼成全景图,SIFT 能精准匹配不同照片中的同名点。

三、深度学习时代:卷积神经网络的 “特征革命”

深度学习的到来,让图像特征提取进入了端到端学习的新时代,其中卷积神经网络(CNN) 是绝对的主角。

卷积神经网络:让特征 “自动生长”

CNN 的核心是卷积层,它模拟人类视觉的 “层级感知”:底层检测边缘、纹理,中层组合成形状、部件,高层形成完整的物体概念。

  • 卷积运算:通过卷积核(可理解为 “视觉过滤器”)与图像做卷积,提取局部特征。比如一个卷积核可能专门检测 “竖直线条”,另一个检测 “圆形边缘”。
  • 特征不变性
    • 局部感知:每个神经元只关注局部区域,模拟人类视觉的 “局部关注” 特性。
    • 权值共享:同一卷积核在图像上滑动时权值不变,大幅减少参数数量。
    • 不变性保障:通过池化、裁剪、旋转等数据增强手段,让 CNN 学到的特征具备尺度、旋转不变性。
  • 应用:从 ImageNet 大赛上的图像分类,到自动驾驶中的目标检测,再到医疗影像中的病变识别,CNN 无处不在。

四、总结:特征提取的 “过去与未来”

从 HOG、LBP 等传统手工特征,到 SIFT 的 “全能”,再到 CNN 的 “自动学习”,图像特征提取的发展体现了计算机视觉从 “规则驱动” 到 “数据驱动” 的跨越。未来,随着大模型、自监督学习的发展,特征提取可能会更高效、更通用,让计算机 “看懂” 图像的能力越来越接近人类,甚至在某些场景中超越人类。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐