蟒蛇大文件解析

我有以下格式的1GB的日志文件（.txt），蟒蛇大文件解析

[ABC] [12.45] [bla bla bla] [12345] 
[DEF] [12.45] [bla bla bla] [12345]

我试图解析为每个的[]数组。到目前为止，我已经尝试numpy.genfromtxt，并通过打开文件逐行阅读。 numpy给出了一些MemoryError与1GB文件。逐行法需要约35秒。

是否有任何其他库或方法来解压缩？

读一行一行：

with open(filePath) as f: 
    for line in f: 
     splits = findall('\[(.*?)\]', line) 
     A.append(splits[0].strip()) 
     B.append(datetime.datetime.strptime(splits[2], '%H:%M:%S.%f')) 
     C.append(splits[4])

来源

2014-09-24 user2626431

你知道每行的大小是多少字节吗？ – 2014-09-24 19:43:51

@RafaelBarros：不会有所不同。 – user2626431 2014-09-24 19:45:54

你想要什么？你需要随机访问？你使用每一行吗？ – Veedrac 2014-09-24 19:51:14

可以加快使用str.split，而不是re.findall显著解析。

with open('input.txt') as f: 
    for line in f: 
     splits = line.split('] [') 
     A.append(splits[0][1:]) 
     B.append(splits[1]) 
     C.append(splits[2]) 
     D.append(splits[3][:-1])

来源

2014-09-24 21:15:26

谢谢！那是罪魁祸首。 – user2626431 2014-09-24 21:48:30

蟒蛇大文件解析

回答

相关问题