摘要 语义分割任务是将一张图像做像素级别的分割,将一些原始数据(例如平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。它的难度会比图像分类和物体识别更难。当然我们这里讨论的分割效果还是从像素的一些统计特征出发,并没有引入人的先验认知知识(其实也多少引入了一点,例如格式塔理论,不过基于这个理论的算法难以建模),所以效果是比较差的。 格式塔理论 格式塔理论其实是一种心理学理论,它表明人类视觉是整体的:我们的视觉系统自动对视觉输入构建结构,并在神经系统层面上感知形状、图形和物体,而不是只看到互不相连的边、线和区域。最经典的问题就是比较线段长短。 格式塔理论给我们了一些设计语义分割的思路,它给出了一些像素点分类的指导思想。例如通过地理位置、相似性、平行、对称等关系去分类像素点,实现分割。 这里其实就是自底向上的分割思路。人类看到一张图像做分割,应该是根据已有的知识,自顶向下地去分离物品,比如从人的分离、再到人身上衣服、首饰的分离;而机器做分割,都是从像素出发做分割,单从像素点没办法理解分割操作,这就需要格式塔理论给出的一些人眼视觉的底层模式来指导自底向上的分割了。 实际上
摘要 通过纹理特征,我们可以确定物体表面的方向和形状。同时通过纹理特征,我们可以做语义分割、分类、纹理生成等任务。 纹理特征的获取 纹理就是从重复的局部模式组成,局部模式可以通过不同滤波器进行寻找,然后再通过梯度的直方图对局部模式进行表达。梯度直方图的生成做法是给定一个滑动窗口,每次统计窗口中各个像素的梯度方向信息,从而得到这个窗口的梯度直方图信息,然后将窗口移到下一个区域(HOG特征不同窗口之间有重叠,梯度方向信息则是通过不同的核得到)。例如上面四种动物的梯度方向直方图如下图所示,不同直方图之间存在较为明显的差异。 具体来说,我们可以使用之前用过的两个偏导核(其实就是边缘检测)对一张照片进行卷积,得到两个响应图。 使用红色窗口比对两个图片同一位置中的边缘点个数,列成表格。这个表格也就刻画了一个窗口的两维特征,这两维特征是通过两个偏导核得到的。进一步,我们可以把窗口的二维特征画到二维平面,大概能看到四个类。基本对应平坦区域、竖边、横边、拐点几种纹理。 事实上,我们可以采用多个模板去提取纹理信息,如下图所示,有检测边、条纹、斑点的模板。 不同模板提取出来的信息不同,那么对于图像
摘要 本节主要介绍尺度不变特征以及其经典代表——SIFT,网上关于如何计算SIFT特征的博客有很多,但是大多数博客都没有解释为什么这样找到的特征就是"尺度不变"的、为什么尺度和$\sigma$相关联等问题。因此这篇博客会对这些问题进行一些个人的补充,不一定对,欢迎留言~ 尺度不变特征 在这里,我想把尺度理解成某个物体的大小。那么尺度不变特征就可以解释为:那些随着物体尺度变化而不会发生改变的特征。 具体来说,可以假设两张都有一个黑色实心圆的图片,图片大小保持一致,而图中的圆半径不一致。圆的尺度不同,那么尺度不变特征就可以理解成这两张图中共有的一些特征,这些特征不会随圆的改变而变化/消失。当然这里的圆也可以是复杂的建筑,如下图所示。 之前提到的harris角点就明显不是一个尺度不变特征,当角点的大小放大到一定程度,只能检测到边,而检测不到角点,这说明角点特征不是尺度不变的。 回到刚刚圆的例子,我们希望能有一个特征,可以描述不同半径的圆。如果找到了,那么我们就可以允许识别任务中摄像头可以有一定的远近变化,这是非常有意义的,因为生活中的大部分识别任务不能100%保证摄像头与物体始终保持固定的
摘要 特征提取是视觉中的一个重要任务,通过提取特征点,可以完成全景拼接等操作。harris角点就是一个比较好的特征。 特征选择 一个好的特征具有以下几种性质。 重复性,特征在不同摄影角度、不同地理位置得到的一系列照片中都应该出现。 特殊性,特征应该是特别的,容易辨认的。 计算友好,提取特征需要考虑计算效率。 局部性,特征应该占据图像的一小部分,对杂波和遮挡具有鲁棒性 特征点应用 特征点应用可以用在图像对齐、3D重建等等视觉任务。 角点 在角点周围的区域中,图像梯度具有两个或多个主导方向,并且它具有重复性、辨别度高。所以角点是一个比较好的特征。 识别角点可以使用一个方框,当方框框住角点时,往任意方向移动,方框内的内容都会发生改变。 我们可以使用$E(u,v)$来描述一个方框移动时,方框内容的变化程度。这里的I指图像强度,也是像素值大小。$x,y$指方框内的各个像素点的坐标.$w(x,y)$指不同像素点的权重,一般方框中心的权重较大。 这里的E(u,v)是相对于某个固定位置的方框定义的,其实可以表示成$E(X,Y,u,v)$,$X,Y$是方框中心点位置,因为之后要用到不同位置的E
摘要 Hough变换相比于其他的拟合方法,它可以检测多个图形(当然RANSAC采用TOPK也可以实现多图形检测)。具体来说,Hough变换是将图像空间的像素点向参数空间投影并投票,通过投票最大值得到最优参数。 直线拟合 二维空间的直线有两个参数$m,b$。那么Hough变换投影的参数空间也是二维。 对于图像中的一条线,对应参数空间中的一个点,该点的票数加一。 对于图像中的一个点,对应参数空间中的一条线,线上的票数加一。 那么对于图像中的多个点,如果这些点有较好的线性关系,那么参数空间投票时,会有一个点票数最高,而这个点则是拟合直线的参数。 上述参数空间有个问题,就是$m,b$的范围无法确定,如果直线垂直x轴,m会趋于无限大,参数空间也趋于无限大。因此需要换一种参数表示,这里使用极坐标表示直线。 更换坐标系后,投票策略转换为下图。对于图像上的每个点(这里说图像一般是指边缘图像,可以是canny算法得到的结果),根据已知$x,y$,遍历$\theta$值,得到对应$\rho$,参数空间中的网格加一票。最后选择票数最高的作为拟合结果。 直线拟合效果如下,右侧为参数空间,亮度代表票
Axuanz
Updating as per fate.