我是R新手,正在努力寻找一些甚至可能没有被正确询问的东西,但这就是我现在最好的表达方式。 我有两个不同的CSV文件读入R. dataA1
包含481242行和71列(即变量),其中一个是conm(即公司名称)。 dataB1
包含715行(变量)1615行,其中一个是company.name。如何检查R中部分匹配的两个不同数据框中的两个字符串列?
来自dataB1
的1615个公司名中的一部分与来自dataA1
的481242个公司名中的一些部分或完全匹配(重叠)。
我的目标是,打造dataB1
一栏在那里我将有1-S对于同样是在dataA1
(部分或全部相同的名称),发现这些公司,并与0-S对于那些没有找到那里。
任何想法如何做到这一点?
给你一个更好的主意数据的样子,这里是dataA1
:
1-PAGE LTD
3I GROUP PLC
3I INFOTECH LTD
401 HOLDINGS LTD
4CS HOLDINGS CO LTD
55 STATION INC
600 GROUP PLC (THE)
7DIGITAL GROUP PLC
而且需要从dataB1
匹配列:
1-Page Ltd
180 Connect Inc
3DLabs Inc., Ltd.
3M France
3U Holdings AG
4Imprint Group Plc
724 Solutions Inc
7days music entertainment AG
你可以给你一些规则/提示你想要执行部分匹配吗?因为我甚至无法用手查看你的例子...... – digEmAll
我的意思是部分匹配的意思是,具有相似但不完全相同名称的公司应该被耦合/匹配。例如,持股有限公司和持股股份公司基本上是同一家公司,但其名称是德国版(AG = Ltd),因此,由于其名称的主要部分重叠,因此应将其标识为匹配对。 可能有一种方法可以确定重叠百分比以将其声明为匹配对(例如80%或更多)。它取决于一种技术。我使用了80%的模糊查找匹配来执行此任务。唯一的问题是数据的大小对于excel来说太大 – Maiko