Vision Transformer paper:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (arxiv.org) bilibili:ViT论文逐段精读【论文精读】_哔哩哔哩_bilibili code:WZMIAOMIAO/deep-learning-for-image-processing (github.com) DeiT paper:[2012.12877] Training data-efficient image transformers & distillation through attention (arxiv.org) bilibili:DeiT:注意力Attention也能蒸馏 - 知乎 (zhihu.com) code:同ViT MAE paper:[2111.06377] Masked Autoencoders Are Scalable Vision Learners (arxiv.org) bilibili:MAE 论
摘要 之前在SIFT算法中,有一个加速操作是使用图像金字塔,即不断对图像进行降采样。按照算法的思想表明:降采样后,标准差为$\sigma$的高斯模糊图像标准差会减半,得到标准差为$1/2\sigma$的高斯模糊图像。 这里我不知道该如何证明....网上也没有相关资料,所以暂时采用数值解去验证这个说法。 实验过程 代码贴在最后,主要思路是比较两张图像:一张是先降采样一倍再用$\sigma$高斯模糊的图像;另一张是先使用$2\sigma$进行高斯模糊,再在模糊的图像上进行一倍降采样。 首先可视化这两张图,肉眼查看之间的差距,确实差距还是挺小的。此处$\sigma=30$(忽略窗口的值,那里标错了~) 为了对比,这里把原图分别使用$\sigma$和$2\sigma$进行高斯模糊的结果也可视化了出来。这两张图就明显存在差异,这说明对高斯模糊过的图像降采样,确实会对其$sigma$产生影响。 接着最早的两张图做差并画出来,可以看到形成了一个类似边缘检测的图像。这说明“先降采样再$\sigma$高斯模糊”跟“先$2\sigma$高斯模糊再降采样”这两个操作不完全等价。 为什么看上去是边缘检
Program Links : https://github.com/JJJYmmm/Image-Classification-with-SIFT-and-BOW ReadMe 使用SIFT+BOW+SVM实现的一个图像分类器。SIFT负责提取图片中的尺度不变特征,词袋模型BOW则负责描述一张图片的SIFT特征分布,将结果送入SVM进行学习。项目参考https://github.com/CV-xueba/A01_cvclass_basic_exercise,不过修复了其中的SPM特征提取代码bug,具体修复见Vocabulary.py中的calSPMFeature函数。 项目结构如下: main.py : 程序入口点 DataProcess.py : 读取图像,提取图像的SIFT特征 ImageInfo.py : 图像相关信息的类,包括类别、大小、SIFT特征的位置和描述符等 Vocabulary.py : 词袋模型,将所有SIFT特征进行聚类得到单词,并提取每个图像的SPM特征 ClassifierKernel.py : SVM学习BOW特征的实现 结果见项目output.txt
摘要 本篇主要介绍目标检测的一些基本概念,以及一个人脸检测的实例来加深印象,最后还谈了以下HOG特征的提取。 简单介绍(非常简单) 目标检测就是在负责在一幅图中检测出感兴趣的物体,一般采用滑动窗口来实现。但是实际应用中,检测效果依赖于光照、物体姿态、视角等影响。具体来说,目标检测需要考虑以下几个问题: 如何选择滑动窗口的大小,从而克服检测物体的尺度变化 如何建模图片的特征 如何找到物体对应的特征 如何克服不同摄影角度的问题(最原始的方法是训练多个视角的模型) 人脸检测 本次介绍基于adaboost的人脸检测模型,它广泛用在相机、手机摄影的人脸检测器。 boosting模型 首先介绍boosting模型,它是一种投票式的判别模型,相比于直接训练一个强分类模型,它的思想是训练多个弱分类器,取长补短达到强分类的效果。 训练过程如下,最终目的是训练一个分类器可以分辨红蓝数据点。刚开始所有数据点的权重为1。 接下来训练多个弱分类器,例如线性分类器组。找到一个正确率最高的分类器,将其保留。 这里有个先验假设,我们总能找到一个正确率大于50%的分类器。原因是如果所有分类器的准确率都小于50
摘要 图像分类是一个经典的视觉任务。无论是分类、识别、检测等任务,都容易受到视角变化、光照、尺度、变形、遮挡、背景、类内实体等因素的影响,所以寻找合适的图像特征表示是一个比较重要的任务。本篇主要介绍了词袋模型表示。 图像表示 图像表示有很多方法,例如之前提到的SIFT特征、纹理特征、HOG特征,甚至直接对图像分块、随机选择图像块也可以表示图像。 词袋模型 词袋模型也可以用来表示一张图像。词袋模型简单来说就是选取一些图像基元构成字典。对于一张图片,首先对其进行分割,统计这些图像块在字典中的统计直方图,根据统计直方图特征确定图片属于哪种类别。 以下述三幅图为例,训练时,每幅图首先分别选出三张基元(如何选取见下文),因此得到了9个基元的词袋。 对于一张测试图像,同样提取图像块并和字典中的9个基元比较,统计其出现个数,根据统计特征进行分类。 词袋模型其实也广泛用在自然语言处理中,比如可以用它来做主题推断等等。 最后一部分是图像块(基元)的提取,这里有许多方法可以提取。例如对于一张图片,可以使用SIFT提取几个区域,并用SIFT描述符来描述。这样一张图片就表示成多个SIFT描述符形成的文
JJJYmmm
Updating as per fate.