JJJYmmm Blog
摘要 YOLOv4使用了一些新特性: WRC/CSP/CmBN/SAT/Mish && activation/Mosaic && data augmentation/DropBlock && regularization/CIou loss Introduction 当前(2020)最精确的现代神经网络无法实时进行目标检测,并且需要多块GPU进行训练(对显存有较高要求)。 而YOLOv4可以在一个传统GPU上进行训练/推断,降低了使用门槛。具体来说,GPU可以是1080 Ti/2080 Ti。 除此之外,在YOLOv4上对比了“Bag-of-freebies” 和 “Bag-of-Specials”这两类方法对模型的影响。 最后,通过改进CBN/PAN/SAM,使YOLOv4更适合单GPU训练 Related work Ordinary object detector 一般来说,一个现代detector应该由两部分组成——一个在ImageNet预训练过的backbone、一个检测头用于类别和BBox
网络 网络整体框图如下。 输入为416*416*3的图像,经过若干卷积三件套和ResN残差结构抽取图像特征。并通过控制卷积stride实现下采样,最终将图片下采样32倍 在下采样8倍/16倍/32倍产生的特征图上进行多尺度的预测,特征图大小分别为52x52、26x26、13x13。最终*通道数都是255 = (3(80+5))** 和SSD类似采用多级检测方法。在三个尺度上进行预测,尺寸越大的特征图负责检测小物体,尺寸越小的特征图负责检测大物体(related to 感受野) 负责预测的浅层特征图还使用了深层特征图的特征(也就是所谓的特征金字塔FPN),通过上采样和通道融合实现。这个好处是让浅层特征图预测小(或者说复杂)物体时更容易(因为深层特征图提取的大多是语义特征,容易区分复杂目标) 具体解读 主干网络backbone:DarkNet-53 相较于YOLOv2中所使用的DarkNet19,新的网络使用了更多的卷积——52层卷积(外加一个全连接层),同时,添加了残差网络中的残差连结结构,以提升网络的性能。DarkNet53网络中的降采样操作没有使用Maxpoolin
序言 在2016年的CVPR会议上,继YOLOv1工作后,原作者再次推出YOLOv2(YOLO9000)。相较于上一代的YOLOv1,YOLOv2在其基础之上做了大量的改进和优化,不仅仅是对模型本身做了优化,同时还引入了由Faster R-CNN工作提出的anchor box机制,并且使用了kmeans聚类方法来获得更好的anchor box,边界框的回归方法也因此做了调整。在VOC2007数据集上,YOLOv2超越了同年发表在ECCV会议上的SSD工作,是那个年代当之无愧的最强目标检测器之一。那么,接下来就让我们去看看YOLOv2究竟做了哪些改进吧。 较之先前工作的改进 添加Batch Normalization 在YOLOv1中,每一层卷积的结构都是线性卷积和激活函数,并没有使用诸如批归一化(batch normalization,简称BN)、层归一化(layer,normalization,简称LN)、实例归一化(instance normalization,简称IN)等任何归一化层。 这一点是受限于那个年代的相关技术的发展,而以现在的眼光来看,这些归一
网络 原始网络结构 原始网络采用24层卷积层进行特征的抽取,这部分参数在ImageNet数据集上预训练来初始化。 Head部分采用两个全连接层实现,首先将7*7*1024的Tensor Flatten,并送入输出为4096的全连接层;再接一个输出为1470的全连接层。 最后将1470的向量reshape成7*7*30. 输出解析 输出为SxSx(B*5+C)的tensor,其中SxS为grid cell的个数. 每个grid cell预测B个bounding box.每个bounding box有5个参数----中心点的坐标x和y,box的宽w和高h以及这个box包含物体的置信度confidence. C是物体各个类别的概率(这里是20),这里的概率是条件概率,即在这个grid cell预测的某个bounding box预测物体时,各个类别的概率. $$ P(class)=P(class|obj)*confidence $$ 损失函数 损失函数loss共分为五个部分: 第一部分是负责检测物体的bounding box的中心
Abstract 本文提出了一个开源的可拓展的知识抽取工具包——DeepKE,支持多场景(少资源、文档级别、多模态)下的知识数据库填充。 Introduction KBP的提出是为了从文本语料库中抽取知识来补充知识库(KBs)中缺失的元素,即对知识图谱进行补充。 DeepKE支持标准监督设置和三种复杂场景下的知识抽取任务(命名实体识别、关系抽取和属性提取)。 Core Functions 这一节简要介绍了一下三种知识抽取任务的概念和效果。略。 Toolkit Design and Implementation DeepKE的三大特性: 统一框架,在数据、模型和核心组件方面,不同的任务对象使用相同的框架。 灵活使用,提供自动超参数调整等工具,提高工作效率 现成模型,提供预训练的语言模型。 Data Module 数据模块主要完成数据的预处理和加载。其中的Tokenizer负责实现中文/英文的标记化。图像等其他视觉对象在多模态设置下先转化成视觉信息如标记或image patch。 Model Module 模型模块包
JJJYmmm
Updating as per fate.