我在寻找有关一种散列函数的索引类似的文本。例如,如果我们有两个非常长的文本,称为“A”和“B”,其中A和B差异不大,那么应用于A和B的散列函数(称为H)应该返回相同的数字。哈希函数的索引类似的文本
所以H(A)= H(B)其中A和B是类似的文本。
我尝试了“DoubleMetaphone”(我用意大利语语言文本),但我看到它依赖非常强从字符串前缀。例如:
A = “这是我想散列很长的文本” B = “这是非常”
==> doubleMetaPhone(A)= doubleMetaPhone(B)
这对我来说并不是那么好,因为具有相同前缀的字符串可以被比较为相似的,我不想这样做。
任何人都可以给我建议任何其他方式?
音位算法可能是正确的选择对我来说,但它在很大程度上取决于文字前缀。长文本具有相同的前缀具有相同的Metaphone代码.... – robob 2010-07-14 17:37:25