fuzzy-comparison

0热度

1回答

这将是我第二次问计算语言学/模糊字符串匹配，但这次不是关于词干。我的第一个问题是使用模糊字符串匹配对数据库进行重复数据删除，我已经完成了。现在，我必须检测一个字符串是否是另一个字符串的简写。例如： JOHN阿德里安·弗里曼飞扬等于JAF量级或JAFWelter MICROSOFT OFFICE等于MS OFFICE BUILDING等于建筑物我目前使用的。我的第一个问题是SimMetrics的

3热度

3回答

Levenshtein与扰乱字符的距离？

我正在寻找一个字符串比较度量ala Levenshtein，它也可以在字符串中的字符被加密时起作用。有谁知道这样的指标？如果有一个可以计算这样的度量的Python模块，那也是很棒的。谢谢！

8热度

4回答

SQL和模糊比较

让我们假设我们有一张人名表（姓名，地址，SSN等）。我们希望找到与指定人员“非常相似”的所有行。我想实现A和表People中所有行的某种模糊逻辑比较。将有几个模糊推理规则分别在几列上工作（例如，3个模糊规则为姓名，2个规则在姓氏上，5个规则在地址上）问题是以下两种方法哪种更好，为什么？实现所有模糊规则的存储过程和使用一个沉重的SELECT语句返回“非常相似” A.所有行这种做法可能包括使用

1热度

2回答

在文本中搜索文字以查找包含最匹配变体的文本

我想找到一种方法从表格中找到最合适的行，其中包含与我输入的单词最相似的单词。任何想法？（我正在使用OCR，发现单词不完全一样有时读单词'特定'为'spccific'）

0热度

2回答

解析在Excel工作表中使用Python

列标题我有一个Excel电子表格，看起来像这样： Row1 : some text some other row : "ABC Col" "DEF Col" "GHI Col" "JKL Col" following rows : more text 我试图找到包含ABC和JKL行。请注意我传递的字符串可能与精确的列标题不匹配。我使用xlrd和正在做这样的事情： setOfheadi

1热度

1回答

使用模糊匹配的聚合字符串

假设我有一个错误日志，我希望得到每个类型的错误的计数。我已经通过错误消息进行了分组，但是很多消息都包含特定于上下文的信息，这意味着尽管是由同一个错误引起的，我不能简单地按消息文本进行分组。一些例子，其中斜体段每个实例变化误差的：未能检索用户188a9e12-6797-4d9b-8adf-4588b2435326页/灵长类/大猩猩结果未能网页检索用户08c610d2-27d2-4f97-bf

0热度

2回答

日期类型值模糊匹配

我没有一个真正的问题，但我更喜欢寻求一个问题的创造性投入。我要比较两个（最有可能不等）日期值，并计算其相似的比例。因此，举例来说，如果我比较08.01.2013和10.01.2013我会得到一个相对高值，但08.01.2013和17.04.1998之间这将是非常低的。但现在我不知道我应该如何精确计算相似度。首先，我正考虑将日期值转换为字符串，然后使用EditDistance（单个字符操作数将一

1热度

1回答

matlab图像比较

我想建立一个数据库的图像，可用于比较当前图像（所以如果当前图像是相等的，或几乎相等比较它会给出一个匹配）但是，要开始这个项目，我想比较2图像使用Matlab来看看过程是如何工作的。有没有人知道我可以怎样比较说image1.jpg和image2.jpg到看他们彼此有多密切相关？所以基本上如果我是比较image1.jpg和image1.jpg的关系应该是100％，，但比较2个不同的图像

3热度

1回答

OCR：根据最后N个结果（OCR的自适应滤波器）选择最佳字符串

我已经看到了一些关于如何确定从不同引擎输出的最佳OCR结果的问题，答案通常是“选择最佳引擎” 。但是，我想要捕获几帧文本图像，并可能存在暂时遮挡或暂时性故障。我正在使用tesseract-ocr和python-tesseract。考虑到最后N帧的OCR输出，我想决定什么是最好的结果（为了简单起见，一行一行地）。例如，对于N = 3，我们可以使用一个中值滤波： ABXD XBCX AXCD

3热度

3回答

比较小数的最佳方法是什么？

比较小数的最佳方法是什么？可以说我有2个值，比如3.45和3.44，可靠地比较它们的最好方法是什么？我正在考虑将所有数字都存储为345和344，以便我只比较整个数字，并且仅向用户显示带有小数点的格式化数字。另一种解决方案是使用自定义函数来测试差异，当差值小于0.01时，数字应该相等。什么是其他可能的解决方案（更好的解决方案）？