2016-05-30 84 views
0

我知道feature hashing是一种矢量化特征的技术;机器学习非常普遍。 当你想在碰撞时跟踪术语频率时,我仍然困惑于它的工作原理。让我们按照路易斯阿格里奇在this链接中给出的例子。特征散列

比方说你的文字是:“有缘”,让我们假设你有下一个散列函数:

h(the) mod 5 = 0 
h(quick) mod 5 = 1 
h(brown) mod 5 = 1 
h(fox) mod 5 = 3 

您的最终载体将是这样的:(1,2,0,1,0 )

现在让我们假设你的文字是:“快速的棕色狐狸快速快速快速快速” 现在最终的载体将是这样的:(1,6,0,1,0)

我的问题是,我怎么知道棕色只出现一次并快速出现5次?我如何跟踪?

+0

这让我感到困惑。如果你正试图处理频率TF-IDF和特性散列可能是一条路。 SO是ML网站。 – Paparazzi

回答

2

我的问题是,我怎么知道棕色只出现一次而且快速出现5次?我如何跟踪?

你不知道。这就是哈希的全部技巧。它统一一些事情,损失信息,所以你可以得到其他好处。如果你想跟踪一切,你应该只使用,而不是散列。

另一个选项是更复杂的方法来散列,像在LSH技术,其使用家庭的散列函数来重构最终相似性,通过示出了给定的散列函数足够大的样品中使用的一个 - 它收敛于真实的相似性。