我有两个CSV,每个都有大约1M行,n列,具有相同的列。我想要最有效的方法来比较两个文件,找出可能存在差异的地方。我宁愿用Python解析这些数据,而不愿使用任何与Excel相关的工具。比较Python中两个几乎相同的CSV的最有效方法?
回答
你使用熊猫吗?
import pandas as pd
df = pd.read_csv('file1.csv')
df = df.append(pd.read_csv('file2.csv'), ignore_index=True)
# array indicating which rows are duplicated
df[df.duplicated()]
# dataframe with only unique rows
df[~df.duplicated()]
# dataframe with only duplicate rows
df[df.duplicated()]
# number of duplicate rows present
df.duplicated().sum()
大熊猫是否会自动处理大写字母的字符串,还是需要先处理?例如'约翰'vs'约翰'。 –
它自动处理它。它没有看到'约翰'等于'约翰'。如果这是个问题,可以使用'df ['column_name'] = df ['column_name']。str.lower()'将所有字符串值转为小写。 –
这太棒了;谢谢!我会对熊猫图书馆做一些研究! –
一种有效的方法是将读出从第一文件(用更少的行数)的每一行,并保存在像设置或字典,从中可以访问使用O(1)复杂的对象。
,然后读取第二个文件的线条和检查它是否存在于设置与否。
谢谢你,实际上,我正在寻找一个实际的解决方案,但我知道这仍然是我如何使其高效的正确答案,所以我想加注并响应。谢谢! –
- 1. 比较Python中的两个列表(几乎相同)
- 2. 最有效的方法来比较python中的两个字典
- 3. 比较几乎相同的两个熊猫系列/数据帧
- 4. 为什么这两个几乎相同的代码有不同的高效(Python)?
- 5. 比较两个(几乎相同)的Insertion Sort实现;其中一个失败
- 6. 具有两种几乎相同的方法的Java抽象类
- 7. 什么是比较这两个列表最有效的方法?
- 8. 比较/匹配两个大阵列的最有效方法?
- 9. 比较两个字符串的最有效方法是什么?
- 10. 在python(numpy)中比较两个巨大的csv文件的最快方法
- 11. 哪个是比较python中两个float值最快的方法?
- 12. 比较两个CSV文件以跟踪更改的Python方法
- 13. 如何在eclipse中比较两个相同的方法?
- 14. 比较两个CSV文件的Python
- 15. 两张表几乎相同
- 16. 有效比较相同长度的两个BitArrays
- 17. 在Python中比较两个CSV
- 18. 在android中,比较两个文件以确定它们是否相同的最有效方法是什么?
- 19. 比较两个列表中元素的有效方法?
- 20. 比较Java中2个基元的最有效方法?
- 21. 从两个几乎相同的Linq查询中提取一个方法
- 22. 比较csv文件中的两行 - Python
- 23. 比较两个相同长度的字符串的最快方法
- 24. 在Python中有效比较两组
- 25. 几乎两个相同的代码,但只有一个输出
- 26. 如何比较在iOS中具有几乎相同阴影或范围的两个UIColor?
- 27. 比较两个数组的有效方法
- 28. 比较两个CSV文件,并打印在不同的Python
- 29. Python比较两个csv文件
- 30. Python CSV比较两个文件?
请在输入文件中添加示例代码和几行代码。 –