本节主要是学GAN的时候附带了解一下显式生成模型的基本原理~

生成模型分为显式隐式两种,显示就是具体求出(拟合)数据分布$P_{data}$,可以使用极大似然法.假设$P_g$是生成模型产生的数据分布,$\theta$是模型的参数.

首先对所有数据样本计算似然函数$L(\theta)$:

$$ L(\theta) = \prod_{i=1}^N{P_g(x^{(i)};\theta)} $$

似然函数是一个关于模型参数$\theta$的函数,当选择不同的参数$\theta$时,似然函数的值是不同的,它描述了在当前参数下,使用模型分布$P_g(x;\theta)$产生数据集中所有样本的概率。一个朴素的想法是:在最好的模型参数$\theta_{ML}$下,产生数据集中的所有样本的概率是最大的,即

$$ \theta_{ML}=argmaxL(\theta) $$

但实际在计算机中,多个概率的乘积结果并不方便储存,例如计算过程中可能发生数值下溢的问题,即对比较小的、接近于0的数进行四舍五入后成为0。我们可以对似然函数取对数来缓解该问题,并且仍然求解最好的模型参数使对数似然函数最大,即

$$ \theta_{ML}=argmax \sum_{i=1}^Nlog[P_g(x^{(i)};\theta)] $$

可以发现,使用极大似然估计时,每个样本$x_i$都希望拉高它所对应的模型概率值$P_g(x^{(i});\theta)$,如图所示,但是由于所有样本的密度函数的总和必须是1,所以不可能将所有样本点都拉高到最大的概率;一个样本点的概率密度函数值被拉高将不可避免的使其他点的函数值被拉低,最终将达到一个平衡态。

对于刚刚的$log$和,我们可以除以$N$,那么$\theta_{ML}$的含义就是尽可能达到经验分布$\hat{P}_{data}$下样本概率对数的期望值.

$$ \theta_{ML}=argmax\space\mathbb{E}_{\hat{P}_{data}} log[P_g(x^{(i)};\theta)] $$

还有一种对极大似然估计的理解:最小化训练集上的经验分布$\hat{P}_{data}(x)$和模型分布$P_g(x;\theta)$之间的KL散度值(这个在之前的机器学习里也提到过),即

$$ \theta_{ML}=argminD_{KL}(\hat{p}_{data}||P_g) $$

KL散度的表达式是

$$ D_{KL}(\hat{p}_{data}||P_g) = \mathbb{E}_{\hat{P}_{data}}[ log\hat{p}_{data}(x)-logP_g(x;\theta)] $$

因为第一项与$\theta$无关,所以可以写成

$$ \theta_{ML}=argmax \sum_{i=1}^Nlog[P_g(x^{(i)};\theta)] $$

可以发现两者是完全一样的,也就是说极大似然估计就是希望$P_g$和$P_{data}$尽量相似,最好相似到无任何差异(KL散度值为0),这与生成模型的思想是一致的。但实际的生成模型一般不可能提前知道$P_g$的表达式形式而只需要估计表达式中的参数,实际中的生成模型非常复杂,往往对$P_g$无任何先验知识,只能对其进行一些形式上的假设或近似。

img

RPNHead

RPNHead的主要功能是

  • 给定图片的各个特征预测层,通过conv3x3滑动窗口,预测每个锚框的前景概率和回归参数

__init__

通过滑动窗口预测目标概率和bbox regression参数

image-20230322030526544

forward

​ 在多个特征层预测,把3x3conv作为滑动窗口生成预测结果.

image-20230322030613270

AnchorsGenerator

AnchorsGenerator类的主要功能是

  • 给定图片的各个特征层,在每个特征层上都生成特定大小和尺寸的锚框

__init__

​ 处理anchor的sizes和ratios

image-20230322030836230

forward

​ 首先生成anchor模板,再获取每个特征图上的anchor在原图上的坐标信息.随后遍历每张图像,将所有anchor存入anchors中,anchors是list of list,第一个维度是不同图片,第二个维度是不同特征层.最后通过cat操作消除第二个维度,即把一个图片的不同特征图的anchor全部汇总起来.至此AnchorGenerator生成anchor的工作结束.

image-20230322031733821

generate_anchors

​ 生成anchors模板,首先拓展ratios和scales的维度并相乘(广播机制),获得不同尺度不同比例的anchor对应的宽和高,再将坐标摞起来,得到anchor模板的左上角(右下角)坐标.

image-20230322031308543

cache_grid_anchors

​ 对于anchor在原图上的位置信息做了一个cache缓存操作

image-20230322031941314

grid_anchors

​ 得到anchor模板在原图上的坐标信息,这里主要用到了meshgrid函数生成网格坐标,先生成特征图的每个像素中心点在原图上的坐标信息,再和anchor模板坐标相加即可(因为anchor模板默认中心点是(0,0))

image-20230322032022340

BoxCoder

BoxCoder类主要工作是

  • 已知两个Box计算regression回归参数
  • 已知一个Box和regression计算回归后的Box

encode

​ 根据anchor和对应的GTBox计算regression参数。这里先把所有图片的reference_boxes和proposals拼接在一起,最后返回的时候再根据每张图片的anchor个数分离,加快运算效率。

image-20230322074008057

encode_single/encode_boxes

​ 根据proposal坐标得到其宽高(ex_widths/ex_heights)和中心点坐标(ex_ctr_x/ex_ctr_y).同理计算GTBox的宽高和中心点.

image-20230323112554925

​ 最后计算四个回归参数dx/dy/dw/dh.参照以下公式.

image-20230307102128616

decode

​ 思路和encode相反,参数为proposal和回归参数regresssion,计算最终的proposal坐标.

image-20230323112840773

decode_single

​ 思路与encode_single相反.

image-20230323113010860

​ 计算公式如下.

image-20230307101918729

Matcher

Matcher的主要功能是

  • 将真实框分配给锚框,并划分正负样本

_call_

​ 根据IoU矩阵为每个proposal分配真实框,并根据IoU大小划分正负样本.

image-20230323115113955

BalancedPositiveNegativeSample

BalancedPositiveNegativeSample的主要功能:

  • 随机采样正负样本,挑选指定比例的样本参与损失计算

__call__

​ call函数的参数是matched_idxs,数据类型是List of Tensor,List代表不同图像,Tensor代表每幅图像中每个Proposals的正负样本类型,为-1时代表样本被忽略;为0时代表负样本;>0时代表正样本

image-20230324144345447

​ 首先通过条件过滤出正负样本的下标,再根据正样本的比例(positive_fraction)选取正负样本的数量.注意如果正/负样本不足时,需要采样所有正/负样本.

​ 正负样本的随机采样使用randperm函数,

image-20230324144715234

​ 最后根据选出的正负样本下标制作掩码并返回.

image-20230324145020855

RegionProposalNetwork

RegionProposalNetwork类是RPN网络的主体,调用了Matcher/BoxCoder等类来完成RPN的功能

__init__

  • 传入上文提到的两个类(anchor_generator和rpn_head).
  • fg_iou_thresh和bg_iou_thresh是划分正负样本的阈值.
  • positive_fraction是计算损失时正负样本比例
  • pre_nms_top_n是每个特征层最后NMS留下的候选框个数,post_nms_top_n是所有特征层汇总后留下的候选框个数
  • BoxCoder /Matcher/BalancedPositiveNegativeSample见前文

image-20230322033422504

forward

​ 首先将特征图丢入head中获得预测类别和边界框偏移的结果,再通过anchor_generator生成anchors.

​ 接下来计算每个特征层上的anchors的数量,用于之后的过滤操作.

​ 利用Box_coder的decode操作将pred_bbox_deltas应用在生成的anchors上,获得propoals的坐标信息,在这里做NMS操作.

image-20230322050416286

​ 最后为预测的proposal分配GTBox,并计算损失.

image-20230322051331331

concat_box_prediction_layers

​ 对box_cls和box_regression两个list中的每个预测特征层的预测信息的tensor排列顺序以及shape进行调整 -> [N, -1, C]

C是num_classes or 4(bbox regression)

image-20230322051509943

permute_and_flatten

​ 主要工作是交换维度,把C维度换到最后.利于之后计算损失.

image-20230322051918714

filter_proposals

​ 此方法调用topk方法过滤每个特征层的proposals.

​ 首先用level变量存储不同特征层上的anchors索引信息(因为这个时候不同特征层的anchor在之前的处理中存储在一起了,这里需要用level来区分不同的特征层anchor)

​ 随后调用_get_top_n_idx获取每层特征图中预测概率排前pre_nms_top_n的anchor的索引值,存入top_n_idx.利用双重索引获得这些anchor的objectness和proposal.

最后过滤得到的proposal对应的objectness记得做一次sigmod~

image-20230322063704375

​ 最后对于过滤的proposals进行边缘的裁剪,并去除小概率的proposal.最后再按照不同次执行一次batch_nms.

batch_nms是按照某个类别/预测层分别执行nms,当然底层实现更加高效.具体见下文

image-20230322064428092

clip_boxes_to_image

​ 利用clamp函数将边界框限制在图片范围内

image-20230322065759214

remove_small_boxes

​ 过滤宽高不满足条件的proposal

image-20230322065232352

batch_nms

​ 为了高效实现不同类别分别做NMS,首先为不同的类别生成一个足够大的offset,保证不同类别之间的boxes不会重叠,从而保证了在各自类别内做NMS的效果.

image-20230322065049862

assign_targets_to_anchors

将真实框分配给锚框,并划分正负样本.主要使用proposal_matcher来实现匹配.具体方法见Matcher类实现.

image-20230322070220705

compute_loss

​ 首先通过BalancedPositiveNegativeSampler类选择正负样本,并将正负样本的索引拼接在一起,用来计算目标预测损失.

image-20230322070543937

​ 随后计算正样本的边界框回归损失(smooth_L1_Loss)和所有样本的物体预测损失(BCE_Loss)

image-20230322070803228