SIFT中的最终描述符

我是计算机视觉新手，开始学习计算机视觉社区中一个非常流行的话题，即SIFT。但我对一个实现细节感到困惑：SIFT中的最终描述符

在检测到关键点之后，我们必须构造4乘4局部直方图，作为最终的SIFT描述符，对吗？每个局部直方图包含4乘4像素的局部邻域的方向。所以总的来说，我们有16次16等于256像素，它们位于关键点附近的一个邻域内。所以这个邻域是16乘16像素的网格。

但是这个邻域如何确定细节？邻居是否按照关键点的方向旋转？根据检测关键点的比例，此256像素邻域内的像素是否分开？

感谢您的帮助！

2016-08-17 J. Lin

首先，SIFT关键点以多个比例提取。描述符使用相应的比例进行计算。所以，我不会说'像素'，因为它可能不明确。对于你的问题，我想引用original paper（6.1节）：

首先，图像梯度幅度和方向都是围绕关键点的位置进行采样，使用关键点的规模，选择高斯的水平模糊的图像。

为了实现定向不变性，描述符的坐标和梯度方向相对于关键点方向相对于旋转。

σ等于描述符窗口宽度的一半的高斯加权函数用于为每个样本点的大小分配权重。

我希望这能回答你的问题。请不要犹豫，询问是否有不清楚的地方。

2016-08-18 06:32:36 gfkri

回答