网络 原始网络结构 原始网络采用24层卷积层进行特征的抽取,这部分参数在ImageNet数据集上预训练来初始化。 Head部分采用两个全连接层实现,首先将7*7*1024的Tensor Flatten,并送入输出为4096的全连接层;再接一个输出为1470的全连接层。 最后将1470的向量reshape成7*7*30. 输出解析 输出为SxSx(B*5+C)的tensor,其中SxS为grid cell的个数. 每个grid cell预测B个bounding box.每个bounding box有5个参数----中心点的坐标x和y,box的宽w和高h以及这个box包含物体的置信度confidence. C是物体各个类别的概率(这里是20),这里的概率是条件概率,即在这个grid cell预测的某个bounding box预测物体时,各个类别的概率. $$ P(class)=P(class|obj)*confidence $$ 损失函数 损失函数loss共分为五个部分: 第一部分是负责检测物体的bounding box的中心
Axuanz
Updating as per fate.