摘要 语义分割任务是将一张图像做像素级别的分割,将一些原始数据(例如平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。它的难度会比图像分类和物体识别更难。当然我们这里讨论的分割效果还是从像素的一些统计特征出发,并没有引入人的先验认知知识(其实也多少引入了一点,例如格式塔理论,不过基于这个理论的算法难以建模),所以效果是比较差的。 格式塔理论 格式塔理论其实是一种心理学理论,它表明人类视觉是整体的:我们的视觉系统自动对视觉输入构建结构,并在神经系统层面上感知形状、图形和物体,而不是只看到互不相连的边、线和区域。最经典的问题就是比较线段长短。 格式塔理论给我们了一些设计语义分割的思路,它给出了一些像素点分类的指导思想。例如通过地理位置、相似性、平行、对称等关系去分类像素点,实现分割。 这里其实就是自底向上的分割思路。人类看到一张图像做分割,应该是根据已有的知识,自顶向下地去分离物品,比如从人的分离、再到人身上衣服、首饰的分离;而机器做分割,都是从像素出发做分割,单从像素点没办法理解分割操作,这就需要格式塔理论给出的一些人眼视觉的底层模式来指导自底向上的分割了。 实际上

计算机视觉 · 2023-07-08 · 325 人浏览
计算机视觉|分割

摘要 通过纹理特征,我们可以确定物体表面的方向和形状。同时通过纹理特征,我们可以做语义分割、分类、纹理生成等任务。 纹理特征的获取 纹理就是从重复的局部模式组成,局部模式可以通过不同滤波器进行寻找,然后再通过梯度的直方图对局部模式进行表达。梯度直方图的生成做法是给定一个滑动窗口,每次统计窗口中各个像素的梯度方向信息,从而得到这个窗口的梯度直方图信息,然后将窗口移到下一个区域(HOG特征不同窗口之间有重叠,梯度方向信息则是通过不同的核得到)。例如上面四种动物的梯度方向直方图如下图所示,不同直方图之间存在较为明显的差异。 具体来说,我们可以使用之前用过的两个偏导核(其实就是边缘检测)对一张照片进行卷积,得到两个响应图。 使用红色窗口比对两个图片同一位置中的边缘点个数,列成表格。这个表格也就刻画了一个窗口的两维特征,这两维特征是通过两个偏导核得到的。进一步,我们可以把窗口的二维特征画到二维平面,大概能看到四个类。基本对应平坦区域、竖边、横边、拐点几种纹理。 事实上,我们可以采用多个模板去提取纹理信息,如下图所示,有检测边、条纹、斑点的模板。 不同模板提取出来的信息不同,那么对于图像

计算机视觉 · 2023-07-07 · 318 人浏览
计算机视觉|纹理特征

摘要 本节主要介绍尺度不变特征以及其经典代表——SIFT,网上关于如何计算SIFT特征的博客有很多,但是大多数博客都没有解释为什么这样找到的特征就是"尺度不变"的、为什么尺度和$\sigma$相关联等问题。因此这篇博客会对这些问题进行一些个人的补充,不一定对,欢迎留言~ 尺度不变特征 在这里,我想把尺度理解成某个物体的大小。那么尺度不变特征就可以解释为:那些随着物体尺度变化而不会发生改变的特征。 具体来说,可以假设两张都有一个黑色实心圆的图片,图片大小保持一致,而图中的圆半径不一致。圆的尺度不同,那么尺度不变特征就可以理解成这两张图中共有的一些特征,这些特征不会随圆的改变而变化/消失。当然这里的圆也可以是复杂的建筑,如下图所示。 之前提到的harris角点就明显不是一个尺度不变特征,当角点的大小放大到一定程度,只能检测到边,而检测不到角点,这说明角点特征不是尺度不变的。 回到刚刚圆的例子,我们希望能有一个特征,可以描述不同半径的圆。如果找到了,那么我们就可以允许识别任务中摄像头可以有一定的远近变化,这是非常有意义的,因为生活中的大部分识别任务不能100%保证摄像头与物体始终保持固定的

计算机视觉 · 2023-07-07 · 643 人浏览
计算机视觉|尺度不变特征与SIFT
Theme Jasmine by Kent Liao