整体思路 GeneralizedRCNNTransform主要用在图像进入backbone网络前的预处理以及预测结果输出时的后处理两个阶段.主要工作是图像的标准化处理以及resize操作. 函数细节 __init__ __init__函数主要输入图像的均值和方差,以及resize时图片的最小(大)边长范围 normalize 最后一行通过添加None这个维度可以增加一维维度,再利用广播机制对image的每个像素都进行操作. resize 这个方法首先调用_resize_image使用双线性插值调整图片大小,再通过resize_boxes调整对应的box大小. _resize_image 根据宽高限制来确定缩放比例,调用interpolate对图像进行双线性插值,这里在image又添加一个维度,是因为interpolate方法输入需要是4D图像 resize_boxes 按照缩放比例调整box坐标即可.这里torch.stack()会在tensor最后新增一个维度,这里就是在最后一个维度摞起来 batch_images 这
Axuanz
Updating as per fate.