从使用Python或PHP的大型CSV文件中计算唯一列值

我有一个Csv文件，它是217GB，如何使用Python或PHP脚本无需超时获得唯一列值的计数？从使用Python或PHP的大型CSV文件中计算唯一列值

2016-04-26 Ashwin Kumar

正如@plsnoban提到，在处理这个巨大的文件将（按大小的性质）需要很长的时间 – salomonderossi

不确定你的意思是超时，对于像这样的大文件，它总是需要很长时间。

tokens = {} 
with open("your.csv") as infile: 
    for line in infile: 
     columns = line.split(',') 
     # Where idx is your desired column index 
     if columns[idx] not in tokens: 
      tokens[columns[idx]] = 0 
     else: 
      tokens[columns[idx]] += 1 

print tokens

这样一行一行地加载文件，所以你的计算不会从将217 GB加载到RAM中时崩溃。你可以先试试看这本词典是否适合你电脑的内存。否则，你可能想考虑以分而治之的方式将文件分割成更小的块。

来源

2016-04-26 06:19:59 plsnoban

-1

你可以试着加大field_size_limit

import csv 
csv.field_size_limit(1000000000) 

r = csv.reader(open('doc.csv', 'rb')) 

for row in r: 
    print(row) # do the processing

来源

2016-04-26 06:20:08 salomonderossi

从使用Python或PHP的大型CSV文件中计算唯一列值

回答

相关问题