摘要 RCNN可以说是利用深度学习进行目标检测的开山之作。在当时的VOC 2012数据集上,将mAP提升了30%以上,达到了53.3%。 这篇论文主要提出两个关键见解: 可以将高容量的卷积神经网络应用在自底向上的区域建议(region proposal),以此来定位和分割对象。 当训练数据不足时,可以选择进行辅助任务的监督预训练,再针对具体任务进行fine-tuning,以此获得显著的性能提升。 算法流程 一张图像生成1k~2k个候选区域(使用Selective Search) 对每个候选区域,使用深度网络提取特征 特征送入每一类的SVM分类器,判别种类 使用回归器对候选框进行微调 候选区域生成 使用Selective Search算法。算法大致思路是通过聚类的方法在图像上初步分割,找到 颜色/纹理/大小/相似度比较相似的区域,再根据这些区域进行加权合并,最后(希望)得到一些包括了GT box的候选框。 AlexNet 提取特征 对于每个候选框,将框中的内容提取出来,并缩放至227x227的大小,送入AlexNet中提取特征,产生4096维的
Axuanz
Updating as per fate.