2023年3月

KMeans聚类

作者: JJJYmmm
时间: 2023-03-27
分类: 机器学习
评论

聚类概念

属于无监督学习(无标签)
顾名思义，就是将相似的东西分到一组
难点在于如何评估聚类效果以及调整参数

基本概念

K代表最后需要得到的簇个数(比如二分类K=2)
一个簇的质心计算：采用均值，即每个特征向量取平均值
距离度量：经常使用欧几里得距离和余弦相似度(高维特征最好先执行一次标准化)
优化目标：实现$min\sum_{i=1}^{k}\sum_{x∈C_i}dist(C_i,x)^2$

优缺点

优点：

算法简单、快速
适合常规数据集(就是一坨一坨的那种，没有特定形状)

缺点：

K值难以确定(一般是遍历K值取Inertia的拐点)
算法复杂度与样本呈线性关系(一次迭代)
很难发现任意形状的簇，比如二维特征的样本，一个圆环套一个球的形状KMeans就很难检测出来。

算法流程

首先随机选取K个样本作为K个簇的中心(在KMeans++中，使用最大距离进行初始化)
- KMeans++逐个选取K个簇中心，且离其它簇中心越远的样本点越有可能被选为下一个簇中心
将每个样本分配到K个簇中，具体选择哪个簇取决于该样本和K个簇的距离，选择距离最近的簇(分配样本)
此时所有样本都分配到对应的簇，在每个簇中更新簇中心。新的簇中心采用简单的均值计算(更新簇中心)
回到第二步再次分配样本，直到达到迭代次数上限或损失指标小于某个阈值(损失指标有inertia/轮廓系数)

KMeans代码实现

import numpy as np
class KMeans:
    def __init__(self,data,num_clusters):
        self.data = data
        self.num_clusters = num_clusters
        
    def train(self,max_iterations):
        # 1.choose k centers
        centroids = KMeans.centroids_init(self.data,self.num_clusters)
        # 2.begin train
        num_examples = self.data.shape[0]
        closest_centroids_ids = np.empty((num_examples,1))
        for _ in range(max_iterations):
            # 3.get closest center id
            closest_centroids_ids = KMeans.centroids_find_closest(self.data,centroids)
            # 4.update k centers
            centroids = KMeans.centroids_compute(self.data,closest_centroids_ids,self.num_clusters)
        return centroids,closest_centroids_ids
    
    @staticmethod
    def centroids_init(self,data,num_clusters):
        num_examples = data.shape[0]
        random_ids = np.random.permutation(num_examples)
        centroids = data[random_ids[:num_clusters],:]
        return centroids
    
    @staticmethod
    def centroids_find_closest(self,data,entroids):
        num_examples = data.shape[0]
        num_centroids = centroids.shape[0]
        closest_centroids_ids = np.zeros((num_examlpes,1))
        for example_index in range(num_examples):
            distance = np.zeros(num_centroids,1)
            for centroid_index in range(num_centroids):
                distance_diff = data[example_index,:] - centroids[centroid_index,:]
                distance[centroid_index] = np.sum(distance_diff**2)
            closest_centroids_ids[example_index] = np.argmin(distance)
        return closest_centroids_ids
    
    @staticmethod
    def centroids_compute(self.data,closest_centroids_ids,self.num_clusters):
        num_features = data.shape[1]
        centroids = np.zeros((num_clusters,num_features))
        for centroid_id in range(num_clusters):
            closest_ids = closest_centroids_ids == centroid_id
            centroids[centroid_ids] = np.mean(data[closest_ids.flatten(),:],axis=0)
        return centroids

sklearn

接下来介绍sklearn库中的KMeans实现.

文档见sklearn.cluster.KMeans — scikit-learn 1.2.2 documentation

`Attributes`

`init`

n_clusters : 簇个数K
random_state : 随机数种子
init : K个簇中心的初始化方式
n_init : 算法执行次数,取结果最好的一次
max_iter : 单次算法迭代次数(分配簇/更新簇)

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=2,random_state=0,init='k-means++',n_init=10,max_iter=300)

`fit`

kmeans.fit(X) # input X
kmeans.cluster_centers_ # center coordinate
kmeans.label_ # every sample's label
kmeans.inertia # loss

`pred`

kmeans.predict(New_X)
kmeans.label_

`tranform`

Transform(): Method using these calculated parameters apply the transformation to a particular dataset.
返回值shape : (num_examples,num_clusters) 即每个样本和每个类的距离通过这个方法也可以得到predict结果(argmin)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit_tranform(X_train)
sc.tranform(X_test) # 一定是tranform 保证train和test使用同一个转化标准

可视化

# draw cluster points
def plot_data(feature,snr,label):
    df = pd.DataFrame(dict(x=snr, y=feature, color=label))
    fig, ax = plt.subplots()
    colors = {0:'red', 1:'blue'}
    ax.scatter(df['x'], df['y'], c=df['color'].apply(lambda x: colors[x]))
    plt.show()

# draw cluster centers
def plot_centriods(snr,centroids,weights=None,circle_color='g',cross_color='k'):
    if weights is not None:
        centroids = centroids[weights>weights.max()/10]
    plt.scatter(snr,centroids[:],
               marker='o',s=30,linewidths=8,
               color=circle_color,zorder=10,alpha=0.9)
    plt.scatter(snr,centroids[:],
               marker='x',s=50,linewidths=50,
               color=circle_color,zorder=11,alpha=1)

评估指标

inertia指标

inertia : 每个样本距离质心的距离
score方法的结果是inertia的负值(绝对值越大分数越小)

kmeans.inertia_
X_dist = kmeans.transform(X)
np.sum(X_dist[np.arange(len(X_dist)),kmeans.labels_]**2) # inertia计算
kmeans.score(X) == -1*kmeans.inertia_

轮廓系数

某个样本的轮廓系数定义为:

$$ s = \frac {disMean_{out} - disMean_{in}}{max(disMean_{out}-disMean_{in})} $$

其中$disMean_{in}$为该点与本类其他点的平均距离，$disMean_{out}$为该点与非本类点的平均距离。该值取值范围为[−1,1]，越接近1则说明分类越优秀。在sklearn中函数 silhouette_score() 计算所有点的平均轮廓系数，而silhouette_samples()返回每个点的轮廓系数。

K值选取(拐点法)

kmeans_per_k = [KMeans(n_clusters=k).fit(X) for k in range(1,10)]
inertias = [model.inertia_ for model in kmeans_per_k]
# draw fig
plt.figure(figsize=(8,4))
plt.plot(range(1,10),inertias,'bo-')
plt.show()

半监督学习

KMeans也可以用于半监督学习。

比如在一个少样本训练场景下，相比于随机选取50个训练样本打标加入训练这种方式，可以先使用聚类挑出50个簇中心，每个簇选取一个样本作为典型样本；用这些样本打标训练，最后测试出来的acc会更高。除此之外，还可以通过标签传播(同一个簇内的标签一致)的方式扩大训练集。

OFD格式文本提取

作者: JJJYmmm
时间: 2023-03-25
分类: 其他
评论

OFD(Open Fixed-layout Document)

OFD 是开放版式文档（Open Fixed-layout Document ）的英文缩写，是我国国家版式文档格式标准，通俗来说，也有人称这格式为国产PDF。但是在很多方面的性能优于PDF的同类文档。OFD也逐渐开始在电子发票、电子公文、电子证照等等的领域中应用。

JJJYmmm目前有把OFD转换成txt的需求，但是网上大多是OFD<--->PDF的方法。所以决定自己动手，丰衣足食(bushi)

OFD格式

OFD其实一个压缩文件，如果我们尝试解压，将会得到如下的目录结构。

OFD.xml里面一般是文档的描述信息，比如创建时间、最迟修改时间、作者等等

Doc_0里保存的是具体文档信息,我们主要关注Pages文件夹中的内容Content.xml,这里面保存的是文档主体内容,也就是我们需要提取的.
观察Content.xml里的内容,可以发现 : 字符在\<ofd:TextCode\>字段中,而\<ofd:TextCode\>嵌套在\<ofd:TextObject\>对象里,众多TextObject封装在\<ofd:PageBlock\>,外层还有\<ofd:PageBlock\>/\<ofd:Layer\>等字段

Python脚本处理xml

接下来可以编写Python脚本来处理xml了!!!

首先就是解压OFD,直接当成普通压缩文件解压即可.

def unzip_file(zip_path, unzip_path=None):
    """
    :param zip_path: ofd格式文件路径
    :param unzip_path: 解压后的文件存放目录
    :return: unzip_path
    """
    if not unzip_path:
        unzip_path = zip_path.split('.')[0]
    with zipfile.ZipFile(zip_path, 'r') as f:
        for file in f.namelist():
            f.extract(file, path=unzip_path)
    return unzip_path

解析XML则借鉴之前FasterRCNN源码中的解析方法.因为TextObjcect对象和目标检测中的Bounding Box类似,有很多实例,故思路是一致的,即通过递归方法解析XML为dict,遇到TextObject对象时value值用列表保存.代码如下:

def parse_xml_to_dict(prefix_ofd,xml):
    """
    将xml文件解析成字典形式，参考tensorflow的recursive_parse_xml_to_dict
    Args:
        xml: xml tree obtained by parsing XML file contents using lxml.etree

    Returns:
        Python dictionary holding XML contents.
    """

    if len(xml) == 0:  # 遍历到底层，直接返回tag对应的信息
        return {xml.tag: xml.text}

    result = {}
    for child in xml:
        child_result = parse_xml_to_dict(prefix_ofd,child)  # 递归遍历标签信息
        if child.tag != prefix_ofd + 'TextObject':
            result[child.tag] = child_result[child.tag]
        else:
            if child.tag not in result:  # 因为TextObject可能有多个，所以需要放入列表里
                result[child.tag] = []
            result[child.tag].append(child_result[child.tag])
    return {xml.tag: result}

这里存在一个 prefix_ofd 前缀,具体来说,这取决于xml第一个字段Page中的xmlns:ofd字段,在使用etree进行解析时,键值中的ofd:会被替换成xmlns:ofd字段,具体原理JJJYmmm暂时也不太清楚,是在debug时发现的()

将XML解析成字典后,就可以遍历字典取出我们想要的结果了~具体代码如下,还是比较简单的

pages_path = f"{file_path}/Doc_0/Pages"
text = ''
for page_path in os.listdir(pages_path):
    context_path = os.path.join(pages_path,page_path,'Content.xml')
    with open(context_path,'r',encoding='utf-8') as f:
        _text = f.read()
        xml = etree.fromstring(_text)
        prefix_ofd = '{http://www.ofdspec.org/2016}'
        # xml to dict
        data = parse_xml_to_dict(prefix_ofd,xml)
        # 遍历TextObject
        for textobj in data[prefix_ofd+'Page'][prefix_ofd+'Content'][prefix_ofd+'Layer'][prefix_ofd+'PageBlock'][prefix_ofd+'PageBlock'][prefix_ofd+'PageBlock'][prefix_ofd+'TextObject']:
            # print(textobj[prefix_ofd + 'TextCode'])
            text+= textobj[prefix_ofd+'TextCode']

效果展示

以一份政府公文为例,首先用OFD查看器查看内容.

执行脚本,demo如下图.

最后保存得到的txt如下.可以发现文章内容都提取出来力.

TODO

第一个问题是最后提取出来的txt没有换行符.这个问题在于OFD的xml文件里本来就没有保存换行符,是直接通过坐标进行渲染的(详见TextObject的Boundary字段).
第二个小问题是没有封装成批量处理脚本,但是这个问题不大(单纯是不想写咕了)

源码阅读|Faster RCNN(三)——GeneralizedRCNNTransform

作者: JJJYmmm
时间: 2023-03-24
分类: 源码阅读,目标检测
评论

整体思路

GeneralizedRCNNTransform主要用在图像进入backbone网络前的预处理以及预测结果输出时的后处理两个阶段.主要工作是图像的标准化处理以及resize操作.

函数细节

`init`

__init__函数主要输入图像的均值和方差,以及resize时图片的最小(大)边长范围

`normalize`

最后一行通过添加None这个维度可以增加一维维度,再利用广播机制对image的每个像素都进行操作.

`resize`

这个方法首先调用_resize_image使用双线性插值调整图片大小,再通过resize_boxes调整对应的box大小.

`_resize_image`

根据宽高限制来确定缩放比例,调用interpolate对图像进行双线性插值,这里在image又添加一个维度,是因为interpolate方法输入需要是4D图像

`resize_boxes`

按照缩放比例调整box坐标即可.这里torch.stack()会在tensor最后新增一个维度,这里就是在最后一个维度摞起来

`batch_images`

这个方法是将一个batch图像中再次resize到统一尺寸,加速训练.这个统一尺寸被调整为size_divisible的整数倍

具体实现时寻找一个batch中图片的高宽最大值,以此作为最大图像.其他图像跟该图像做左上角对齐,空余位置填充零.

这种方法的好处是保证了图像的比例.

`forward`

对于每张图片,以此调用normalize和resize方法进行标准化和缩放.而在进行batch_images前,需要记录当前图像尺寸,存入image_sizes_list,最后与image打包成一个list,跟target标注一起返回.

之所以要这么做是因为经过batch_images后,图像变成统一尺寸,但是图像有效区域在原先的图片大小范围内,所以需要保存batch_resize前的图像大小.

`postprocess`

这个方法是预测模式下最后的后处理操作.

源码阅读|Faster RCNN(二)——网络框架

作者: JJJYmmm
时间: 2023-03-24
分类: 源码阅读
评论

整体思路

Faster R-CNN

以上是Faster RCNN的整体网络框架图,首先需要构建一个基础的网络框架类FasterRCNNBase,随后在此基础上构建子类FasterRCNN,在这个类中进行各个模块如RPN/ROI Header的实例化.

FasterRCNNBase

init函数接收backbone/rpn/roi_heads/transform四个变量并初始化参数.

主要看forward函数.首先会对训练数据(bbox的tensor格式)进行检查.然后记录图片原始的大小.

接着进行预处理,丢到骨干网络中得到特征图(如果在多个特征图上预测,得到的特征图将是一个字典)

在特征图上使用RPN网络提取Proposal,并得到RPN网络的损失.

将RPN生成的Proposal,随同特征图与标注target丢入ROI_Header中得到预测结果和预测损失.最后还需要将预测结果进行预处理.

最后当然就是把RPN Loss和Fast RCNN Loss加起来反向传播~(如果是预测模式直接返回detections即可,eager_outpus就是干这事的)

Faster RCNN

FasterRCNN类继承自FastRCNNBase,输入由很多参数,具体参数含义见注释~

__init__函数中首先检查anchor_generator和box_roi_pool是否是正确的类.

对于没有实例化的类,这里将进行实例化.如anchor生成器/RPN_Head/ROI_Head等.

最后还需要实例tranform类,进行图像归一化/翻转等操作

各个模块的初始化参数

AnchorsGenerator

参数1是生成anchor的大小,大小以tuple of tuple的类型传入,tuple第二个参数缺省.(这里是为了适配多尺度预测,不同特征层预测的尺度不一样)

第二个参数是生成anchor的宽高比例,这里乘以anchor数目.主要是为了多尺度预测处理方便.

说白了第一维就是区分有几个特征层参与预测!!!
5种大小,3种比例,那么特征图上每个像素将产生15个anchor.

RPNHead

RPN_Header就是利用3x3conv预测类别和边界框偏移那部分,参数1是backbone输出的维度,第二个是anchor的定位信息.

ReginProposalNetwork

对anchor_generator和rpn_header两部分整合,形成完整的RPN网络.包括之后的NMS过滤等操作.

MultiScaleRoIAlign

featmap_names是多尺度预测时各个预测层的名字，output_size是最后proposal经过roi_pool层后的大小,这里和论文保持一致(7x7)

TwoMLPHead

这部分接在roi_pool后,对其结果做展平处理和连接两个全连接层.

FastRCNNPredictor

两个全连接层预测proposal的类别和边界框偏移.

RoIHeads

将前面几个RoI组件组合起来.包括MultiScaleRoIAlign/TwoMLPHead/FastRCNNPredictor.

源码阅读|Faster RCNN(一)——顶层视图

作者: JJJYmmm
时间: 2023-03-24
分类: 源码阅读
评论

Faster RCNN框架图

图源： deep-learning-for-image-processing/pytorch_object_detection/faster_rcnn at master · WZMIAOMIAO/deep-learning-for-image-processing (github.com)

源码主要内容

Faster R-CNN源码阅读将从以下几个方面展开，详见其他文档

DataSet
网络框架
GeneralizedRCNNTransform
RPN
Predict Header
正负样本划分与采样
Loss函数
PostProcess
Change Backbone(with FPN)

环境配置

Python 3.6/3.7/3.8
Pytorch>=1.6.0
pycocotools
Ubuntu or Centos
Use Gpu to train model
more details see requirements.txt

文件结构

  ├── backbone: 特征提取网络，可以根据自己的要求选择
  ├── network_files: Faster R-CNN网络（包括Fast R-CNN以及RPN等模块）
  ├── train_utils: 训练验证相关模块（包括cocotools）
  ├── my_dataset.py: 自定义dataset用于读取VOC数据集
  ├── train_mobilenet.py: 以MobileNetV2做为backbone进行训练
  ├── train_resnet50_fpn.py: 以resnet50+FPN做为backbone进行训练
  ├── train_multi_GPU.py: 针对使用多GPU的用户使用
  ├── predict.py: 简易的预测脚本，使用训练好的权重进行预测测试
  ├── validation.py: 利用训练好的权重验证/测试数据的COCO指标，并生成record_mAP.txt文件
  ├── coco.json: coco数据集标签文件
  └── pascal_voc_classes.json: pascal_voc标签文件

预训练权重

MobileNetV2 weights(下载后重命名为mobilenet_v2.pth，然后放到bakcbone文件夹下): https://download.pytorch.org/models/mobilenet_v2-b0353104.pth
Resnet50 weights(下载后重命名为resnet50.pth，然后放到bakcbone文件夹下): https://download.pytorch.org/models/resnet50-0676ba61.pth
ResNet50+FPN weights: https://download.pytorch.org/models/fasterrcnn_resnet50_fpn_coco-258fb6c6.pth

注意在源码中修改对应模型的路径与名称

数据集(以PASCAL VOC2012为例)

Pascal VOC2012 train/val数据集下载地址：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
如果不了解数据集或者想使用自己的数据集进行训练，请参考:https://b23.tv/F1kSCK
使用ResNet50+FPN以及迁移学习在VOC2012数据集上得到的权重: 链接:https://pan.baidu.com/s/1ifilndFRtAV5RDZINSHj5w 提取码:dsz8

训练

确保提前准备好数据集
确保提前下载好对应预训练模型权重
若要训练mobilenetv2+fasterrcnn，直接使用train_mobilenet.py训练脚本
若要训练resnet50+fpn+fasterrcnn，直接使用train_resnet50_fpn.py训练脚本
若要使用多GPU训练，使用python -m torch.distributed.launch --nproc_per_node=8 --use_env train_multi_GPU.py指令,nproc_per_node参数为使用GPU数量
如果想指定使用哪些GPU设备可在指令前加上CUDA_VISIBLE_DEVICES=0,3(例如我只要使用设备中的第1块和第4块GPU设备)
CUDA_VISIBLE_DEVICES=0,3 python -m torch.distributed.launch --nproc_per_node=2 --use_env train_multi_GPU.py

注意事项

在使用训练脚本时，注意要将--data-path(VOC_root)设置为自己存放VOCdevkit文件夹所在的根目录
由于带有FPN结构的Faster RCNN很吃显存，如果GPU的显存不够(如果batch_size小于8的话)建议在create_model函数中使用默认的norm_layer，即不传递norm_layer变量，默认去使用FrozenBatchNorm2d(即不会去更新参数的bn层),使用中发现效果也很好。
训练过程中保存的results.txt是每个epoch在验证集上的COCO指标，前12个值是COCO指标，后面两个值是训练平均损失以及学习率
在使用预测脚本时，要将train_weights设置为你自己生成的权重路径。
使用validation文件时，注意确保你的验证集或者测试集中必须包含每个类别的目标，并且使用时只需要修改--num-classes、--data-path和--weights-path即可，其他代码尽量不要改动

2023年3月

KMeans聚类

聚类概念

基本概念

优缺点

算法流程

KMeans代码实现

sklearn

Attributes

__init__

fit

pred

tranform

可视化

评估指标

inertia指标

轮廓系数

K值选取(拐点法)

半监督学习

OFD格式文本提取

OFD(Open Fixed-layout Document)

OFD格式

Python脚本处理xml

效果展示

TODO

源码阅读|Faster RCNN(三)——GeneralizedRCNNTransform

整体思路

函数细节

__init__

normalize

resize

_resize_image

resize_boxes

batch_images

forward

postprocess

源码阅读|Faster RCNN(二)——网络框架

整体思路

FasterRCNNBase

Faster RCNN

各个模块的初始化参数

AnchorsGenerator

RPNHead

ReginProposalNetwork

MultiScaleRoIAlign

TwoMLPHead

FastRCNNPredictor

RoIHeads

源码阅读|Faster RCNN(一)——顶层视图

Faster RCNN框架图

源码主要内容

环境配置

文件结构

预训练权重

数据集(以PASCAL VOC2012为例)

训练

注意事项

最新文章

最近回复

分类

归档

其它

`Attributes`

`init`

`fit`

`pred`

`tranform`

`init`

`normalize`

`resize`

`_resize_image`

`resize_boxes`

`batch_images`

`forward`

`postprocess`