2016-08-17 103 views
0

我是计算机视觉新手,开始学习计算机视觉社区中一个非常流行的话题,即SIFT。但我对一个实现细节感到困惑:SIFT中的最终描述符

在检测到关键点之后,我们必须构造4乘4局部直方图,作为最终的SIFT描述符,对吗?每个局部直方图包含4乘4像素的局部邻域的方向。所以总的来说,我们有16次16等于256像素,它们位于关键点附近的一个邻域内。所以这个邻域是16乘16像素的网格。

但是这个邻域如何确定细节?邻居是否按照关键点的方向旋转?根据检测关键点的比例,此256像素邻域内的像素是否分开?

感谢您的帮助!

回答

0

首先,SIFT关键点以多个比例提取。描述符使用相应的比例进行计算。所以,我不会说'像素',因为它可能不明确。对于你的问题,我想引用original paper(6.1节):

首先,图像梯度幅度 和方向都是围绕关键点的位置进行采样,使用 关键点的规模,选择高斯的水平模糊的图像。

为了实现定向 不变性,描述符的坐标和梯度方向相对于关键点方向相对于 旋转。

σ等于描述符窗口宽度的一半的高斯加权函数 用于为每个样本点的大小分配权重。

我希望这能回答你的问题。请不要犹豫,询问是否有不清楚的地方。