我是python的新手,可以使用我可以获得的任何帮助。我在一台win7机器上,正在使用python 3.5(anaconda)遍历多个CSV检查每个文件中的整数值
我试图遍历文件夹中的多个CSV文件(10k +),检查该文件中超过预定义阈值的任何值。
我想建立一个字典,或列表/元组(基本上是最类似于一个SQL表),使用文件名的子字符串作为名称字段的唯一标识符,并有另一列文件总数那些值超过了给定的阈值。
我不指望你们中的任何人为我做这件事,因为这是很好的做法,但我希望任何可能使这一点变得更容易的模块建议。
我已经能够检查一个文件的值,但这只是大约10分钟到这个任务,我不知道如何迭代通过多个文件和建立表等。谢谢!
import numpy as np
path = 'C:\\path'
file = 'file.csv'
with open(path+file) as f:
my_data = np.genfromtxt(path+file, delimiter = ",")
for data in my_data:
if -1 in my_data:
print("it sure is")
开始与一小部分的文件;获得负载并检查一个文件的运行状况。然后只是迭代文件并收集数据。字典,也许'defaultdict'是开始收集的好地方。但只有几个K文件,数据结构并不是什么大问题。在这一点上,你的描述太模糊,不能提出更具体的建议。 – hpaulj
感谢@hpaulj我很感激你的意见。 – StelioK