fuzzy-comparison

    0热度

    1回答

    这将是我第二次问计算语言学/模糊字符串匹配,但这次不是关于词干。 我的第一个问题是使用模糊字符串匹配对数据库进行重复数据删除,我已经完成了。现在,我必须检测一个字符串是否是另一个字符串的简写。例如: JOHN阿德里安·弗里曼飞扬等于JAF量级或JAFWelter MICROSOFT OFFICE等于MS OFFICE BUILDING等于建筑物 我目前使用的。我的第一个问题是SimMetrics的

    3热度

    3回答

    我正在寻找一个字符串比较度量ala Levenshtein,它也可以在字符串中的字符被加密时起作用。有谁知道这样的指标?如果有一个可以计算这样的度量的Python模块,那也是很棒的。 谢谢!

    8热度

    4回答

    让我们假设我们有一张人名表(姓名,地址,SSN等)。 我们希望找到与指定人员“非常相似”的所有行。 我想实现A和表People中所有行的某种模糊逻辑比较。将有几个模糊推理规则分别在几列上工作(例如,3个模糊规则为姓名,2个规则在姓氏上,5个规则在地址上) 问题是以下两种方法哪种更好,为什么? 实现所有模糊规则的存储过程和使用一个沉重的SELECT语句返回“非常相似” A.所有行这种做法可能包括使用

    1热度

    2回答

    我想找到一种方法从表格中找到最合适的行,其中包含与我输入的单词最相似的单词。任何想法? (我正在使用OCR,发现单词不完全一样有时读单词'特定'为'spccific')

    0热度

    2回答

    列标题我有一个Excel电子表格,看起来像这样: Row1 : some text some other row : "ABC Col" "DEF Col" "GHI Col" "JKL Col" following rows : more text 我试图找到包含ABC和JKL行。请注意我传递的字符串可能与精确的列标题不匹配。 我使用xlrd和正在做这样的事情: setOfheadi

    1热度

    1回答

    假设我有一个错误日志,我希望得到每个类型的错误的计数。我已经通过错误消息进行了分组,但是很多消息都包含特定于上下文的信息,这意味着尽管是由同一个错误引起的,我不能简单地按消息文本进行分组。 一些例子,其中斜体段每个实例变化误差的: 未能检索用户188a9e12-6797-4d9b-8adf-4588b2435326页/灵长类/大猩猩 结果 未能网页检索用户08c610d2-27d2-4f97-bf

    0热度

    2回答

    我没有一个真正的问题,但我更喜欢寻求一个问题的创造性投入。 我要比较两个(最有可能不等)日期值,并计算其相似的比例。因此,举例来说,如果我比较08.01.2013和10.01.2013我会得到一个相对高值,但08.01.2013和17.04.1998之间这将是非常低的。 但现在我不知道我应该如何精确计算相似度。首先,我正考虑将日期值转换为字符串,然后使用EditDistance(单个字符操作数将一

    1热度

    1回答

    我想建立一个数据库的图像,可用于比较 当前图像(所以如果当前图像是相等的,或几乎相等 比较它会给出一个匹配) 但是,要开始这个项目,我想比较2图像 使用Matlab来看看过程是如何工作的。 有没有人知道我可以怎样比较说image1.jpg和image2.jpg到 看他们彼此有多密切相关?所以基本上如果我是 比较image1.jpg和image1.jpg的关系应该是100%, ,但比较2个不同的图像

    3热度

    1回答

    我已经看到了一些关于如何确定从不同引擎输出的最佳OCR结果的问题,答案通常是“选择最佳引擎” 。 但是,我想要捕获几帧文本图像,并可能存在暂时遮挡或暂时性故障。 我正在使用tesseract-ocr和python-tesseract。考虑到最后N帧的OCR输出,我想决定什么是最好的结果(为了简单起见,一行一行地)。 例如,对于N = 3,我们可以使用一个中值滤波: ABXD XBCX AXCD

    3热度

    3回答

    比较小数的最佳方法是什么? 可以说我有2个值,比如3.45和3.44,可靠地比较它们的最好方法是什么? 我正在考虑将所有数字都存储为345和344,以便我只比较整个数字,并且仅向用户显示带有小数点的格式化数字。 另一种解决方案是使用自定义函数来测试差异,当差值小于0.01时,数字应该相等。 什么是其他可能的解决方案(更好的解决方案)?