摘要 Faster RCNN在Fast RCNN的基础上增加了RPN网络来代替比较耗时的Selective Search。RPN网络和检测网络共享同一张卷积特征图,他同时预测每个位置的前景(背景)概率和每一类相对于锚框的偏移,得到的预测框将送入Fast RCNN的检测头进行进一步的分类和BBOX回归。 对于非常深的VGG-16模型,Faster RCNN在GPU上的帧速率为5fps(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上实现了最先进的对象检测精度,每张图像只有300个建议框。在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多个赛道第一名获奖作品的基础。 算法流程 RPN网络结构 正向传播 对于特征图上的每个3x3的滑动窗口(实际实现就是用conv3x3 p1 s1),首先计算窗口中心点在原图上的位置,并计算出k个anchor box 对于anchor的选择,共有三种比例,三种尺度,即每个位置都有9个anchor 感受野 对于特征图上的感受野,骨干网络为ZFNet时,感
相较于RCNN的改进 Fast RCNN仍然使用selective search选取2000个建议框,但是这里不是将这么多建议框都输入卷积网络中,而是将原始图片输入卷积网络中得到特征图,再使用建议框对特征图提取特征框。这样做的好处是,原来建议框重合部分非常多,卷积重复计算严重,而这里每个位置都只计算了一次卷积,大大减少了计算量 由于建议框大小不一,得到的特征框需要转化为相同大小,这一步是通过ROI池化层(region of interest)来实现的 Fast RCNN里没有SVM分类器和回归器了,分类和预测框的位置大小都是通过卷积神经网络输出的 为了提高计算速度,网络最后使用SVD代替全连接层 算法流程 输入一张图片,使用Selective Search获取建议框(region proposal) 将原始图片输入卷积神经网络之中,获取特征图 对每个建议框,从特征图中找到对应位置(按照比例映射),截取出特征框(深度保持不变) 将每个特征框划分为 HxW个网格(论文中是 7×7 ),在每个网格内进行最大池化(即每个网格内取最大值),这就是ROI池化。这样每个特征框就
摘要 YOLOv4使用了一些新特性: WRC/CSP/CmBN/SAT/Mish && activation/Mosaic && data augmentation/DropBlock && regularization/CIou loss Introduction 当前(2020)最精确的现代神经网络无法实时进行目标检测,并且需要多块GPU进行训练(对显存有较高要求)。 而YOLOv4可以在一个传统GPU上进行训练/推断,降低了使用门槛。具体来说,GPU可以是1080 Ti/2080 Ti。 除此之外,在YOLOv4上对比了“Bag-of-freebies” 和 “Bag-of-Specials”这两类方法对模型的影响。 最后,通过改进CBN/PAN/SAM,使YOLOv4更适合单GPU训练 Related work Ordinary object detector 一般来说,一个现代detector应该由两部分组成——一个在ImageNet预训练过的backbone、一个检测头用于类别和BBox
网络 网络整体框图如下。 输入为416*416*3的图像,经过若干卷积三件套和ResN残差结构抽取图像特征。并通过控制卷积stride实现下采样,最终将图片下采样32倍 在下采样8倍/16倍/32倍产生的特征图上进行多尺度的预测,特征图大小分别为52x52、26x26、13x13。最终*通道数都是255 = (3(80+5))** 和SSD类似采用多级检测方法。在三个尺度上进行预测,尺寸越大的特征图负责检测小物体,尺寸越小的特征图负责检测大物体(related to 感受野) 负责预测的浅层特征图还使用了深层特征图的特征(也就是所谓的特征金字塔FPN),通过上采样和通道融合实现。这个好处是让浅层特征图预测小(或者说复杂)物体时更容易(因为深层特征图提取的大多是语义特征,容易区分复杂目标) 具体解读 主干网络backbone:DarkNet-53 相较于YOLOv2中所使用的DarkNet19,新的网络使用了更多的卷积——52层卷积(外加一个全连接层),同时,添加了残差网络中的残差连结结构,以提升网络的性能。DarkNet53网络中的降采样操作没有使用Maxpoolin
序言 在2016年的CVPR会议上,继YOLOv1工作后,原作者再次推出YOLOv2(YOLO9000)。相较于上一代的YOLOv1,YOLOv2在其基础之上做了大量的改进和优化,不仅仅是对模型本身做了优化,同时还引入了由Faster R-CNN工作提出的anchor box机制,并且使用了kmeans聚类方法来获得更好的anchor box,边界框的回归方法也因此做了调整。在VOC2007数据集上,YOLOv2超越了同年发表在ECCV会议上的SSD工作,是那个年代当之无愧的最强目标检测器之一。那么,接下来就让我们去看看YOLOv2究竟做了哪些改进吧。 较之先前工作的改进 添加Batch Normalization 在YOLOv1中,每一层卷积的结构都是线性卷积和激活函数,并没有使用诸如批归一化(batch normalization,简称BN)、层归一化(layer,normalization,简称LN)、实例归一化(instance normalization,简称IN)等任何归一化层。 这一点是受限于那个年代的相关技术的发展,而以现在的眼光来看,这些归一
Axuanz
Updating as per fate.