我得看大约20MB
大.csv
。这些文件是由8
列和5198
行组成的表格。我必须对特定列I
做一些统计。Python:这是读取大型.csv文件的最佳方式?
我有n
不同的文件,这我在做什么:
stat = np.arange(n)
I = 0
for k in stat:
df = pd.read_csv(pathS+'run_TestRandom_%d.csv'%k, sep=' ')
I+=df['I']
I = I/k ## Average
这个过程需要0.65s
,我不知道是否有一个最快的方法。
也许尝试在'pd.read_csv'中指定'memory_map = True' –
- 如果数据是专有数字,那么就不需要使用** csv **模块。你可以使用** split **。 - 使用字典访问记录字段有一些小开销。您可以改为在csv头部使用** find **,然后使用该索引从分割记录中获取项目。 –
第一行不是数字,但是可以使用'split'吗? – emax