1

如何使用模糊匹配大熊猫中检测到重复行(有效)熊猫模糊检测重复

enter image description here

如何找到一列与所有其他的人的副本没有一个巨大的转换的循环row_i toString(),然后将其与所有其他的?

+0

FuzzyWuzzy是一个编辑距离的实现,这将是一个非常适合在numpy或类似构造中配对的距离矩阵。 要检测“重复”或接近匹配,您必须至少从每行到其他行进行比较,否则您永远不会知道两个是否彼此靠近。请参阅http://stackoverflow.com/questions/24089973/python-numpy-pairwise-edit-distance,了解在scipy中使用pdist的解决方案。 –

+0

您可能会近似它 - 请参阅http://cs.stackexchange.com/questions/2093/efficient-map-data-structure-supporting-approximate-lookup/2096#2096 –

+0

或者看中:https:// en .wikipedia.org /维基/ BK-树。不确定这些对你的情况是否有帮助。 –

回答

1

不是熊猫的具体情况,但在Python生态系统中,dedupe python library似乎按照你的意愿去做。特别是,它允许您分别比较每行的每一列,然后将信息组合成匹配​​的单个概率分数。