fuzzy-comparison

    2热度

    2回答

    比方说,我有一个静态方法,比较两个对象的近距离匹配并返回一些置信度[0,1]。 class Foo { ... static double Compare(const Foo& foo1, const Foo& foo2); ... }; 现在我需要返回一个包含具体取决于配置的设置比较细节的其他调试信息。 由于此调试信息不​​会在生产中使用,但仅用于测试/调试

    6热度

    3回答

    假设我有一个大字符串和一个子字符串数组,当它们与大字符串相等时(差别很小)。 例如(注意字符串之间的细微差别): large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string" sub_strs

    2热度

    1回答

    我对机器学习非常熟悉,我在Python中完成了一些项目。我正在寻找如何解决我认为可以实现自动化的以下问题的建议。 我组织中的数据质量团队中的用户每天都会收集已手动输入的公司名称(含地址)列表,他必须搜索公司数据库以查找匹配结果,使用他的判断 - 即没有硬性规定。 输入的一个例子是: 公司名称,地址行1,国家 如此,用户实现了公司名称和将其输入的搜索工具。他在哪里得到一份结果列表,并且选择最佳匹配,

    0热度

    1回答

    我想做模糊匹配,其中我从大数据框(130.000行)的列到列表(400行)的字符串进行匹配。 我写的代码是在一个小样本上测试的(匹配3000行到400行)并且工作正常。它太大复制到这里,但它大致是这样的: 1)列 2的数据标准化)创建笛卡尔积列和计算Levensthein距离 3)选择在单独的得分最高的比赛和商店的large_csv_name“名单。 4)比较'large_csv_names'到'

    2热度

    2回答

    我想根据另一列在一列中查找信息。所以我在一列中有一些词,在另一列中有完整的句子。我想知道它是否找到这些句子中的单词。但有时这些词不一样,所以我不能使用SQL like函数。因此,我认为模糊匹配+某种形式的“喜欢”的数据是这样的功能将是有益的: Names Sentences Airplanes Sarl Airplanes-Sàrl is part of Airplanes-Grou

    0热度

    1回答

    我正在为以下示例寻找模糊字符串算法:给定现有名称的数据库,如果匹配的准确性高于输入阈值,则将匹配输入匹配到最匹配的名称90%),或以其他方式NA database = [James Bond, Michael Smith] 输入 James L Bond->James Bond JBondL->James Bond Bond,James->James Bond BandJamesk->J

    3热度

    2回答

    假设我有一个MDM系统(主数据管理),其主要应用是检测和防止重复记录。 每当销售代表进入系统中的新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数以及输出相似度分数等等。 您的典型模糊匹配场景。 我想知道是否有意义应用机器学习技术来优化匹配输出,即找到最大精度的重复。 而它最有意义的地方在哪里。 优化属性的

    1热度

    1回答

    我对Python很新,我想用模糊wuzzy进行模糊匹配。我相信我使用partial_ratio函数获得不正确的匹配分数。这里是我的探索代码: >>>from fuzzywuzzy import fuzz >>>fuzz.partial_ratio('Subject: Dalki Manganese Ore Mine of M/S Bharat Process and Mechanical Eng

    0热度

    1回答

    我想做什么; 我有两个表有两个地址列,都存储为text我想创建一个视图返回匹配的行。 我试过了; 我已经创建和索引的列和表如下; CREATE INDEX idx_table1_fulladdress ON table1 (LOWER(fulladdress_ppd)); 然后运行以下; CREATE OR REPLACE VIEW view_adresscheck AS SELECT --f

    2热度

    1回答

    我有两个大型数据集,我读入Pandas DataFrames(分别为〜20K行和〜40K行)。当我尝试在地址字段上使用pandas.merge完全合并这两个DF时,与行数相比,我得到了一个微不足道的匹配数。所以我想我会尝试模糊字符串匹配,看看它是否改善了输出匹配的数量。 我尝试在DF1 [20K行]中创建一个新列,这是将DF1 [addressline]上的fuzzywuzzy extracton