jaro-winkler

    0热度

    1回答

    我有一个包含一些短语的文件。通过lucene使用jarowinkler,它应该从我的输入中得到最类似的短语。 这是我的问题的一个例子。 我们有一个包含文件: //phrases.txt this is goodd this is good this is god 如果我输入的是这是一个好,它应该是让我“这是件好事”从文件中第一次,因为这里的相似性得分是最大(1)。但由于某种原因,它返回:

    1热度

    1回答

    如果一个字符串接近表中的字符串,它会用表中的字符串取代吗? 像一个拼写检查函数,它搜索一个表,如果输入接近于表中的一个,它将修复它,所以表中的一个和字符串是相同的?

    0热度

    1回答

    我有一个表(ResponseData)与列RESPONSE_ID,RESPONSEDATA,KEY1,KEY2,KEY3,KEY4,VALUE1,VALUE2,VALUE3,VALUE4 用户可以插入数据任何以下类别。 1, “我的回答一个”, “姓名”,NULL,NULL,NULL, “苹果”,NULL,NULL,NULL 2, “我的回答两个”, “姓名”,“年龄”,NULL,NULL, “苹

    0热度

    1回答

    我做了一个工作算法,但运行时间非常可怕。是的,我从一开始就知道它会很糟糕,但不是那么多。只有200000条记录,该程序运行超过一个小时。 基本上就是我做的是: for each searchfield in search fields for each sample in samples do a q-gram matching if there are match

    2热度

    1回答

    是否有包含R的包中的Levenshtein距离计算函数计算数值向量的距离?我所发现的全部都是基于字符串的。此外,我正在寻找一种Jaro-Winkler套装,但是Levenshtein距离更为重要。

    0热度

    1回答

    是否有任何库或C++中的函数的代码,我可以用它来比较C++中的数值向量?

    0热度

    1回答

    我有兴趣用Perl编写的计算两个字符串之间的距离(或相似)的哈罗 - 温克勒模块: http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm 函数的语法,我不清楚;我找不到任何明确的文件。 下面是示例代码: #!/usr/bin/perl use 5.10.0; use Text::JaroWinkler qw(strcm

    1热度

    1回答

    Jaro-Winkler分数应该表示这两个字符串可能相似的程度,是否存在行业标准? 我有一个字符串的列表,我想看看他们中的任何一个是否是名义上的合理印刷错误。我使用了用C语言编写的perl模块,反过来,我从stata的数据集中收到了字符串。 (所以如果有一个Stata模块,我会全力以赴的!) 下面是我在perl中编写的代码,用于比较字符串James。 #!/usr/bin/perl u

    38热度

    1回答

    我有一个用例,我需要对来自多个文件的数百万条记录进行模糊匹配。我确定了两种算法:Jaro-Winkler和Levenshtein编辑距离。 当我开始探索这两者时,我无法理解两者之间的确切区别。 Levenshtein似乎给出了两个字符串之间的编辑数量,Jaro-Winkler给出了0.0到1.0之间的匹配分数。我不明白这个算法。因为我需要使用任何一种算法,所以我需要知道算法性能的确切差异。

    0热度

    1回答

    我有2个表 - 一个有100万条记录,另一个有40000条记录。 如果在另一个表上有类似的字符串,我需要比较表中的每条记录。 的事情是,这个过程是非常缓慢的 我需要 优化此过程 为表A(SELECT名字||”“||姓氏从员工的全名) 环 SELECT COUNT(*) INTO num_coincidencias FROM表b WHERE utl_match.jaro_winkler_simila