特征散列

我知道feature hashing是一种矢量化特征的技术;机器学习非常普遍。当你想在碰撞时跟踪术语频率时，我仍然困惑于它的工作原理。让我们按照路易斯阿格里奇在this链接中给出的例子。特征散列

比方说你的文字是：“有缘”，让我们假设你有下一个散列函数：

h(the) mod 5 = 0 
h(quick) mod 5 = 1 
h(brown) mod 5 = 1 
h(fox) mod 5 = 3

您的最终载体将是这样的：（1,2,0,1,0 ）

现在让我们假设你的文字是：“快速的棕色狐狸快速快速快速快速” 现在最终的载体将是这样的：（1,6,0,1,0）

我的问题是，我怎么知道棕色只出现一次并快速出现5次？我如何跟踪？

2016-05-30 dbustosp

这让我感到困惑。如果你正试图处理频率TF-IDF和特性散列可能是一条路。 SO是ML网站。 – Paparazzi

我的问题是，我怎么知道棕色只出现一次而且快速出现5次？我如何跟踪？

你不知道。这就是哈希的全部技巧。它统一一些事情，损失信息，所以你可以得到其他好处。如果你想跟踪一切，你应该只使用包，而不是散列。

另一个选项是更复杂的方法来散列，像在LSH技术，其使用家庭的散列函数来重构最终相似性，通过示出了给定的散列函数足够大的样品中使用的一个 - 它收敛于真实的相似性。

2016-05-30 18:19:54 lejlot

回答