jaro-winkler

0热度

1回答

我有一个包含一些短语的文件。通过lucene使用jarowinkler，它应该从我的输入中得到最类似的短语。这是我的问题的一个例子。我们有一个包含文件： //phrases.txt this is goodd this is good this is god 如果我输入的是这是一个好，它应该是让我“这是件好事”从文件中第一次，因为这里的相似性得分是最大（1）。但由于某种原因，它返回：

1热度

1回答

如何在lua中创建一个字符串字典函数？

如果一个字符串接近表中的字符串，它会用表中的字符串取代吗？像一个拼写检查函数，它搜索一个表，如果输入接近于表中的一个，它将修复它，所以表中的一个和字符串是相同的？

0热度

1回答

更快的搜索查询与动态哪里列oracle db

我有一个表（ResponseData）与列RESPONSE_ID，RESPONSEDATA，KEY1，KEY2，KEY3，KEY4，VALUE1，VALUE2，VALUE3，VALUE4 用户可以插入数据任何以下类别。 1， “我的回答一个”， “姓名”，NULL，NULL，NULL， “苹果”，NULL，NULL，NULL 2， “我的回答两个”， “姓名”，“年龄”，NULL，NULL， “苹

0热度

1回答

NLP - 提高运行时间并回收模糊字符串匹配

我做了一个工作算法，但运行时间非常可怕。是的，我从一开始就知道它会很糟糕，但不是那么多。只有200000条记录，该程序运行超过一个小时。基本上就是我做的是： for each searchfield in search fields for each sample in samples do a q-gram matching if there are match

2热度

1回答

R中的快速Levenshtein距离（和Jaro Winkler）用于数字向量

是否有包含R的包中的Levenshtein距离计算函数计算数值向量的距离？我所发现的全部都是基于字符串的。此外，我正在寻找一种Jaro-Winkler套装，但是Levenshtein距离更为重要。

0热度

1回答

快速Jaro Winkler C++代码为数字向量

是否有任何库或C++中的函数的代码，我可以用它来比较C++中的数值向量？

0热度

1回答

什么是Text :: JaroWinkler :: strcmp95的第三个参数？

我有兴趣用Perl编写的计算两个字符串之间的距离（或相似）的哈罗 - 温克勒模块： http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm 函数的语法，我不清楚;我找不到任何明确的文件。下面是示例代码： #!/usr/bin/perl use 5.10.0; use Text::JaroWinkler qw(strcm

1热度

1回答

在Perl中解释Jaro-Winkler得分 - Stata中有替代方法吗？

Jaro-Winkler分数应该表示这两个字符串可能相似的程度，是否存在行业标准？我有一个字符串的列表，我想看看他们中的任何一个是否是名义上的合理印刷错误。我使用了用C语言编写的perl模块，反过来，我从stata的数据集中收到了字符串。（所以如果有一个Stata模块，我会全力以赴的！）下面是我在perl中编写的代码，用于比较字符串James。 #!/usr/bin/perl u

38热度

1回答

Jaro-Winkler和Levenshtein距离之间的区别？

我有一个用例，我需要对来自多个文件的数百万条记录进行模糊匹配。我确定了两种算法：Jaro-Winkler和Levenshtein编辑距离。当我开始探索这两者时，我无法理解两者之间的确切区别。 Levenshtein似乎给出了两个字符串之间的编辑数量，Jaro-Winkler给出了0.0到1.0之间的匹配分数。我不明白这个算法。因为我需要使用任何一种算法，所以我需要知道算法性能的确切差异。

0热度

1回答

utl_match比较很多记录

我有2个表 - 一个有100万条记录，另一个有40000条记录。如果在另一个表上有类似的字符串，我需要比较表中的每条记录。的事情是，这个过程是非常缓慢的我需要优化此过程为表A（SELECT名字||”“||姓氏从员工的全名）环 SELECT COUNT（*） INTO num_coincidencias FROM表b WHERE utl_match.jaro_winkler_simila