我有一堆包含格式的数据文件(几乎100): (人数)\吨(平均年龄)从一个随机游走产生阅读文件在python
这些文件针对特定人群的人口进行。每个文件有100,000行,对应于1到100,000的大小的平均年龄。每个文件对应于第三世界国家中的不同地区。我们将把这些数值与发达国家同类地区的平均年龄进行比较。
我想要做的是,
for each i (i ranges from 1 to 100,000):
Read in the first 'i' values of average-age
perform some statistics on these values
这意味着,每次运行我(其中我范围为1〜100,000),在平均 - 第一我读取值年龄,将它们添加到列表中,并运行一些测试(如柯尔莫哥洛夫 - 斯米尔诺夫或卡方)
为了并行打开所有这些文件,我想通了BES方式将是一个文件对象的字典。但我坚持尝试做上述操作。
我的方法是最好的(复杂性)?
有没有更好的方法?
“读取所有文件(第一* I *平均年龄将它们放到一个列表或东西”?这是什么意思?它是否意味着'我在范围内(100):从文件中读取我行'?如果是这样,请更新您的算法。 – 2011-06-02 21:17:59
如果文件很小,则会增加一个开销以访问所有文件同时由于GIL和这些文件在同一个硬盘中 – JBernardo 2011-06-02 21:19:47
每个文件中有100,000行,我想读取第一个i文件,范围从1到100,000 – Craig 2011-06-02 21:23:19