0
我正在解析一大堆逗号分隔的文件。每个文件包含数千行,每行具有相同数量的字段,并填充相似或不同的字符串。我正在解析这些文件,并将每行保存为一个Python列表。我正在寻找关于如何在python中解析所有捕获的列表的想法,例如,返回项[1]中的唯一字符串的数目,或者列表中的任何项目。解析大文件,计算唯一字符串的数量?
我应该怎么办?感谢您阅读我的第一篇文章! :)
我正在解析一大堆逗号分隔的文件。每个文件包含数千行,每行具有相同数量的字段,并填充相似或不同的字符串。我正在解析这些文件,并将每行保存为一个Python列表。我正在寻找关于如何在python中解析所有捕获的列表的想法,例如,返回项[1]中的唯一字符串的数目,或者列表中的任何项目。解析大文件,计算唯一字符串的数量?
我应该怎么办?感谢您阅读我的第一篇文章! :)
如果你正在寻找要简洁,你可以利用collections.Counter
,map
,并operator.itemgetter
:
num_unique_in_first_column = len(collections.Counter(map(operator.itemgetter(0), rows)))
奖励:对于庞大的数据量,这里不仅可以将行不适合内存,但是这组唯一值也没有,并且可以使用来估计唯一值的数量。你几乎肯定没有足够的数据来证明使用它,但我觉得它是一个有趣的离题。
非常感谢。祝你晚安! :) – akagera 2014-12-07 07:52:39