2014-12-07 63 views
0

我正在解析一大堆逗号分隔的文件。每个文件包含数千行,每行具有相同数量的字段,并填充相似或不同的字符串。我正在解析这些文件,并将每行保存为一个Python列表。我正在寻找关于如何在python中解析所有捕获的列表的想法,例如,返回项[1]中的唯一字符串的数目,或者列表中的任何项目。解析大文件,计算唯一字符串的数量?

我应该怎么办?感谢您阅读我的第一篇文章! :)

回答

0

如果你正在寻找要简洁,你可以利用collections.Countermap,并operator.itemgetter

num_unique_in_first_column = len(collections.Counter(map(operator.itemgetter(0), rows))) 

奖励:对于庞大的数据量,这里不仅可以将行不适合内存,但是这组唯一值也没有,并且可以使用​​来估计唯一值的数量。你几乎肯定没有足够的数据来证明使用它,但我觉得它是一个有趣的离题。

+0

非常感谢。祝你晚安! :) – akagera 2014-12-07 07:52:39