1
我有以下格式的1GB的日志文件(.txt),蟒蛇大文件解析
[ABC] [12.45] [bla bla bla] [12345]
[DEF] [12.45] [bla bla bla] [12345]
我试图解析为每个的[]数组。 到目前为止,我已经尝试numpy.genfromtxt,并通过打开文件逐行阅读。 numpy给出了一些MemoryError与1GB文件。逐行法需要约35秒。
是否有任何其他库或方法来解压缩?
读一行一行:
with open(filePath) as f:
for line in f:
splits = findall('\[(.*?)\]', line)
A.append(splits[0].strip())
B.append(datetime.datetime.strptime(splits[2], '%H:%M:%S.%f'))
C.append(splits[4])
你知道每行的大小是多少字节吗? – 2014-09-24 19:43:51
@RafaelBarros:不会有所不同。 – user2626431 2014-09-24 19:45:54
你想要什么?你需要随机访问?你使用每一行吗? – Veedrac 2014-09-24 19:51:14