2012-04-23 127 views
1

我有使用哈希函数的问题。我必须为文档中的每个单词指定一些编号(128位或64位)。所以,“相似性”的散列值必须与“相似”相近。这意味着,如果具有相似值=> 10022(说),则相似=> 10025。这应该接近类似的词。不同名称的散列值也应该相似。这意味着,“john”的哈希值也应该与“michel”或“sita”等近似。如果任何机构有任何想法。相似哈希函数(simhash)

谢谢先进。 :)

回答

3

它不是以这种方式工作,首先必须找到可用数据样本值的一般模型,然后将其用于流日志消息。

+1

请让我更清楚一点。 – 2012-05-28 15:32:27

+0

你需要解释哪部分? – 2012-06-04 03:05:31

+1

可用数据样本值的模型呢? – 2012-06-04 05:24:51

0

有一个名为OpenNLP的库,所以通过使用这个库你可以知道它是什么类型的单词。那么正如你所说,对于像名称这样的相似单词,可以使用写入散列函数,其中名称或动词可以得到相似的散列值。 谢谢。

+1

开放式图书馆适用于普通英语,但事件日志不符合一般英语模式。我不能在日志消息中使用它。如果你有什么想法? – 2012-05-17 19:17:47