我是计算机视觉新手,开始学习计算机视觉社区中一个非常流行的话题,即SIFT。但我对一个实现细节感到困惑:SIFT中的最终描述符
在检测到关键点之后,我们必须构造4乘4局部直方图,作为最终的SIFT描述符,对吗?每个局部直方图包含4乘4像素的局部邻域的方向。所以总的来说,我们有16次16等于256像素,它们位于关键点附近的一个邻域内。所以这个邻域是16乘16像素的网格。
但是这个邻域如何确定细节?邻居是否按照关键点的方向旋转?根据检测关键点的比例,此256像素邻域内的像素是否分开?
感谢您的帮助!