目标检测经典算法总结(R-CNN, Fast R-CNN, Faster R-CNN, YOLO)

目标检测经典算法总结

从原图像中提取2000个候选区域。2000个候选区域由选择性搜索(selective search)算法产生。

选择性搜索：
（1）首先初始化多个候选区域；
（2）用贪心算法递归地将相似区域合并成较大区域；
（3）使用生成的区域去产生最终候选区域建议；

framework1

检测过程如上图所示：

framework2

R-CNN存在的问题：

framework3

R-CNN是将各个小块的候选区域喂入卷积神经网络，而Fast R-CNN则是将整张图片都喂入神经网络。

检测过程如上图所示：

framework4

Fast R-CNN远快于R-CNN，其优势在于不用每次喂入2000个候选区域给卷积神经网络，每张图片只要一次卷积操作。
此外，由上图还可以看出，影响效率的瓶颈在于找到候选区域。

R-CNN和Fast R-CNN都使用了“选择性搜索”算法，这种算法很慢，耗费大量时间。因此Faster R-CNN摒弃了这种算法。

framework5

检测过程如图:

framework6

可以看出，Faster R-CNN远远比先前的算法快，因此适合作为实时物体检测。

上述3种算法：R-CNN，Fast R-CNN和Faster R-CNN都使用候选区域来定位物体，属于两阶段（One stage）目标检测。而YOLO只需单一的卷积神经网络即可预测边界框的位置和框内物体的类别。

framework7

检测原理如上图所示：

YOLO的特点：远快于两阶段算法（fps达到45），但是在检测小物体时性能较差。