Object Detection -- 论文YOLO(You Only Look Once: Unified, Real-Time Object Detection)解读

YOLORgb大神关于物体检测的新作YOLO，论文You Only Look Once: Unified, Real-Time Object Detection。Introduction对比人类的视觉系统，现存的物体检测模型:要不就是准确度不咋的(DPM速度还行，准确率很差，实用不现实)要不就是速度跟不上(Faster R-CNN 准确度还可以，3FPS的速度不能实时监测啊~)这一堆物体检测模

DFann

7877人浏览 · 2017-10-11 21:36:32

DFann · 2017-10-11 21:36:32 发布

YOLO

Rgb大神关于物体检测的新作YOLO，论文You Only Look Once: Unified, Real-Time Object Detection。

Introduction

对比人类的视觉系统，现存的物体检测模型:

要不就是准确度不咋的(DPM速度还行，准确率很差，实用不现实)
要不就是速度跟不上(Faster R-CNN 准确度还可以，3FPS的速度不能实时监测啊~)

这里写图片描述

这一堆物体检测模型，无论在学术界还是工程界，都不算令人满意。为此需要注入新的血液(重新挖坑)，那么从哪里开始扎针呢？

作者在论文内主要对比R-CNN系列，指出了R-CNN系列速度慢的原因是： 模型把物体检测任务分为了多个阶段，而这几个阶段需要分开训练，难以优化(虽然Faster R-CNN是一个整体的网络，但是训练的时候还是需要交替训练)。

为什么非要分为多个阶段？
这是因为基于RPN(region proposal networks)在设计时已经把object detection问题分为多个pipeline，如果要改，就要把RPN方案砍掉。

YOLO在此基础上重建了整个模型框架，将原先的Region Proposal一套方案抛弃掉，将object detection作为回归问题来处理，模型能够接收原始像素直接输出object的bbox和类别categories，也就是end-to-end模型.

Detection System

YOLO工作的流程图如下：

这里写图片描述

大致步骤为：

整个图片resize到指定大小，得到图片 Inputrs <script type="math/tex" id="MathJax-Element-1">Input_{rs}</script>
将 Inputrs <script type="math/tex" id="MathJax-Element-2">Input_{rs}</script>塞给CNN
使用NMS(非极大值抑制)去除多余框，得到最后预测结果

总的步骤很简单，下面具体看看图片塞给CNN时是怎么整的。

分成单元格

首先会把原始图片resize到 448×448 <script type="math/tex" id="MathJax-Element-3">448×448</script>,放缩到这个尺寸是为了后面整除来的方便。再把整个图片分成 S×S(例:7×7) <script type="math/tex" id="MathJax-Element-4">S×S(例:7×7)</script>个单元格，此后以每个单元格为单位进行预测分析。

这里写图片描述

每个单元格需要做三件事:

如果一个object的中心落在某个单元格上，那么这个单元格负责预测这个物体(论文的思想是让每个单元格单独干活)。
每个单元格需要预测 B <script type="math/tex" id="MathJax-Element-5">B</script>个bbox值(bbox值包括坐标和宽高)，同时为每个bbox值预测一个置信度(confidence scores)。也就是每个单元格需要预测B×(4+1)<script type="math/tex" id="MathJax-Element-6">B×(4+1)</script>个值。
每个单元格需要预测 C <script type="math/tex" id="MathJax-Element-7">C</script>(物体种类个数)个条件概率值.

注意到：每个单元格只能预测一种物体，并且直接预测物体的概率值。但是每个单元格可以预测多个bbox值(包括置信度)。

单元格数据

我们细致的分析一下每个单元格预测的B<script type="math/tex" id="MathJax-Element-8">B</script>个 (x,y,w,h,confidence) <script type="math/tex" id="MathJax-Element-9">(x,y,w,h,confidence)</script>：

(x,y) <script type="math/tex" id="MathJax-Element-10">(x,y)</script>是bbox的中心相对于单元格的offset
(w,h) <script type="math/tex" id="MathJax-Element-11">(w,h)</script>是bbox相对于整个图片的比例
confidence <script type="math/tex" id="MathJax-Element-12">confidence</script>下面有详解

这里写图片描述

如上图，图片分成 S×S(7×7) <script type="math/tex" id="MathJax-Element-13">S×S(7×7)</script>个单元格。整张图片的长宽为 hi,wi <script type="math/tex" id="MathJax-Element-14">h_i,w_i</script>。

(x,y) <script type="math/tex" id="MathJax-Element-15">(x,y)</script>到底代表啥意思?

对于蓝色框的那个单元格(坐标为 (xcol=1,yrow=4) <script type="math/tex" id="MathJax-Element-16">(x_{col}=1,y_{row}=4)</script>)，假设它预测的是红色框的bbox(即object是愚蠢的阿拉斯加),我们设bbox的中心坐标为 (xc,yc) <script type="math/tex" id="MathJax-Element-17">(x_c,y_c)</script>,那么最终预测出来的 (x,y) <script type="math/tex" id="MathJax-Element-18">(x,y)</script>是经过归一化处理的，表示的时中心相对于单元格的offset，计算公式如下：

x = x c w i S - x c o l, y = y c h i S - y r o w

(w,h) <script type="math/tex" id="MathJax-Element-20">(w,h)</script>又是啥意思?

预测的bbox的宽高为 wb,hb <script type="math/tex" id="MathJax-Element-21">w_b,h_b</script>， (w,b) <script type="math/tex" id="MathJax-Element-22">(w,b)</script>表示的是bbox的是相对于整张图片的占比，计算公式如下:

w = w b w i, h = h b h i

Confidence <script type="math/tex" id="MathJax-Element-24">Confidence</script>

这个置信度有两个含义：一是格子内是否有目标，二是bbox的准确度。

我们定义置信度为 Pr(Object)∗IOUtruthpred <script type="math/tex" id="MathJax-Element-25">Pr(Object)*IOU_{pred}^{truth}</script>.

如果格子内有物体，则 Pr(Object)=1 <script type="math/tex" id="MathJax-Element-26">Pr(Object)=1</script>，此时置信度等于IoU
如果格子内没有物体，则 Pr(Object)=0 <script type="math/tex" id="MathJax-Element-27">Pr(Object)=0</script>，此时置信度为0

C <script type="math/tex" id="MathJax-Element-28">C</script>个种类的概率值

每个网格在输出bbox值的同时要给出给个网格存在object的类型。记为:

P r (C l a s s i | O b j e c t)

需要注意的是：输出的种类概率值是针对网格的，不是针对bbox的。所以一个网格只会输出 C <script type="math/tex" id="MathJax-Element-30">C</script>个种类信息。(这样就是默认为一个格子内只能预测一种类别的object了，简化了计算，但对于检测小object很不利)。

在检测目标时，我们把confidence<script type="math/tex" id="MathJax-Element-31">confidence</script>做处理：