1
Q
熊猫模糊检测重复
A
回答
1
不是熊猫的具体情况,但在Python生态系统中,dedupe python library似乎按照你的意愿去做。特别是,它允许您分别比较每行的每一列,然后将信息组合成匹配的单个概率分数。
相关问题
- 1. Python熊猫模糊逻辑
- 2. 熊猫系列元素布尔检查是模糊
- 3. 如何检测模糊的DST重叠?
- 4. 熊猫重复的值
- 5. 重复项使用熊猫
- 6. 熊猫标签重复
- 7. 大熊猫重塑行重复
- 8. 重置熊猫
- 9. 检查python熊猫数据结构中的重复项
- 10. 熊猫GROUPBY范围,允许重复
- 11. 熊猫:由列拖放准重复值
- 12. 获取重复的行与大熊猫
- 13. 大熊猫追加重复栏目
- 14. 熊猫掉落非常重复只有
- 15. 重复CSV负载与熊猫
- 16. 熊猫合并产生重复列
- 17. 在熊猫中计数重复的块
- 18. 生成列名重复的大熊猫
- 19. 熊猫sumif与重复列名
- 20. 将重复值插入熊猫行
- 21. Python的大熊猫:标志重复行
- 22. 熊猫重复行唯一的行
- 23. 熊猫LTM与重复的总和
- 24. ValueError异常:不能重复轴熊猫
- 25. 对熊猫重复索引的操作
- 26. 熊猫DataFrame按行重复排序
- 27. 熊猫:merge_asof()总计多行/不重复
- 28. 如何消除熊猫的重复值?
- 29. 熊猫数据帧..重复取样行
- 30. 在熊猫数据框中重复行
FuzzyWuzzy是一个编辑距离的实现,这将是一个非常适合在numpy或类似构造中配对的距离矩阵。 要检测“重复”或接近匹配,您必须至少从每行到其他行进行比较,否则您永远不会知道两个是否彼此靠近。请参阅http://stackoverflow.com/questions/24089973/python-numpy-pairwise-edit-distance,了解在scipy中使用pdist的解决方案。 –
您可能会近似它 - 请参阅http://cs.stackexchange.com/questions/2093/efficient-map-data-structure-supporting-approximate-lookup/2096#2096 –
或者看中:https:// en .wikipedia.org /维基/ BK-树。不确定这些对你的情况是否有帮助。 –