0
我知道feature hashing是一种矢量化特征的技术;机器学习非常普遍。 当你想在碰撞时跟踪术语频率时,我仍然困惑于它的工作原理。让我们按照路易斯阿格里奇在this链接中给出的例子。特征散列
比方说你的文字是:“有缘”,让我们假设你有下一个散列函数:
h(the) mod 5 = 0
h(quick) mod 5 = 1
h(brown) mod 5 = 1
h(fox) mod 5 = 3
您的最终载体将是这样的:(1,2,0,1,0 )
现在让我们假设你的文字是:“快速的棕色狐狸快速快速快速快速” 现在最终的载体将是这样的:(1,6,0,1,0)
我的问题是,我怎么知道棕色只出现一次并快速出现5次?我如何跟踪?
这让我感到困惑。如果你正试图处理频率TF-IDF和特性散列可能是一条路。 SO是ML网站。 – Paparazzi