计算机视觉中的图像特征提取：从传统算法到深度学习的演进

从 HOG、LBP 等传统手工特征，到 SIFT 的 “全能”，再到 CNN 的 “自动学习”，图像特征提取的发展体现了计算机视觉从 “规则驱动” 到 “数据驱动” 的跨越。未来，随着大模型、自监督学习的发展，特征提取可能会更高效、更通用，让计算机 “看懂” 图像的能力越来越接近人类，甚至在某些场景中超越人类。

2401_87959592

660人浏览 · 2025-11-07 17:25:43

2401_87959592 · 2025-11-07 17:25:43 发布

在计算机视觉领域，图像特征提取是感知世界、理解图像的关键一步。它就像为计算机装上 “眼睛” 和 “大脑”，让机器能从像素中挖掘出有价值的信息。今天，我们就来聊聊从传统手工设计特征到深度学习特征的那些经典方法，看看它们是如何让计算机 “看懂” 图像的。

一、传统图像特征提取：手工设计的智慧

在深度学习兴起前，研究者们通过手工设计规则来提取图像特征，这些方法至今仍在一些场景中发光发热。

1. HOG（方向梯度直方图）：为目标检测 “画像”

HOG 特征专为目标检测而生，它的核心是捕捉图像中物体的形状结构。

算法流程：
- 图像预处理：先对图像做灰度化、归一化，减少光照等因素的干扰。
- 计算梯度：在每个像素点上，计算水平和垂直方向的梯度（即像素变化的快慢和方向），这一步能突出物体的边缘和轮廓。
- 统计 Cell 梯度直方图：把图像分成多个小 “Cell”，在每个 Cell 内统计梯度方向的分布，形成直方图。
- Block 归一化：将几个 Cell 组成一个 “Block”，对 Block 内的梯度直方图做归一化，进一步降低光照影响。
- 拼接特征向量：把所有 Block 的特征拼接起来，就得到了描述整个图像区域的 HOG 特征。
应用场景：行人检测是它的经典战场，比如在监控场景中识别行人，HOG 曾是主流方案之一。
局限性：对旋转、尺度变化的鲁棒性不足，一旦目标旋转或缩放，特征就会 “失效”。

2. LBP（局部二值模式）：纹理特征的 “指纹”

LBP 专注于纹理特征，它就像给纹理 “拍指纹”，能区分不同的表面质感（比如粗糙的树皮和光滑的金属）。

核心思想：
- 滑动窗口：用一个固定大小的窗口在图像上滑动。
- 二值比较：将窗口中心像素与周围像素的灰度值比较，大于等于中心则记为 1，否则记为 0，形成一个二进制数。
- 数值转换：把二进制数转成十进制，这个数值就是该区域的 LBP 特征。
进阶优化：为了应对尺度和旋转问题，研究者提出了多尺度 LBP（扩大窗口覆盖不同尺度）和旋转不变 LBP（将所有旋转后的 LBP 值取最小，保证旋转后特征不变）。
应用：纹理分类（比如区分不同面料）、人脸检测中都能看到它的身影。

3. HARR 特征：简单却有效的 “视觉积木”

HARR 特征是人脸检测的 “元老级” 方法，它通过简单的 “黑白块” 组合来捕捉人脸的结构（比如眼睛是深色块、脸颊是浅色块）。

特征类型：包括边缘特征、线特征、中心特征和对角特征。比如 “边缘特征” 能捕捉横竖边缘，“中心特征” 能区分中心与周围的灰度差异。
积分图加速：为了高效计算 HARR 特征，引入了 “积分图” 技术，把原本复杂的区域灰度和计算，简化为几次加减运算，极大提升了速度。
局限性：对光照变化很敏感，一旦光照不均匀，特征就会不稳定。

二、SIFT（尺度不变特征变换）：特征提取的 “全能选手”

SIFT 是传统特征中的 “王者”，它实现了尺度、旋转、光照不变性，堪称 “全能型选手”。

提取步骤：
- 尺度空间极值检测：在不同尺度（可以理解为不同大小）的图像上，通过高斯金字塔和差分金字塔寻找 “关键点”（即图像中最具代表性的点，比如角点、边缘点）。
- 关键点定位与尺度确定：精确找到关键点的位置和对应的尺度，确保尺度不变性。
- 关键点方向确定：为每个关键点赋予方向，保证旋转不变性。
- 特征向量生成：在关键点周围的区域内，统计梯度方向的直方图，生成具有唯一性的特征向量。
应用：图像拼接、目标跟踪、场景识别等领域都有它的身影。比如把多张重叠的风景照拼成全景图，SIFT 能精准匹配不同照片中的同名点。

三、深度学习时代：卷积神经网络的 “特征革命”

深度学习的到来，让图像特征提取进入了端到端学习的新时代，其中卷积神经网络（CNN） 是绝对的主角。

卷积神经网络：让特征 “自动生长”

CNN 的核心是卷积层，它模拟人类视觉的 “层级感知”：底层检测边缘、纹理，中层组合成形状、部件，高层形成完整的物体概念。

卷积运算：通过卷积核（可理解为 “视觉过滤器”）与图像做卷积，提取局部特征。比如一个卷积核可能专门检测 “竖直线条”，另一个检测 “圆形边缘”。
特征不变性：
- 局部感知：每个神经元只关注局部区域，模拟人类视觉的 “局部关注” 特性。
- 权值共享：同一卷积核在图像上滑动时权值不变，大幅减少参数数量。
- 不变性保障：通过池化、裁剪、旋转等数据增强手段，让 CNN 学到的特征具备尺度、旋转不变性。
应用：从 ImageNet 大赛上的图像分类，到自动驾驶中的目标检测，再到医疗影像中的病变识别，CNN 无处不在。