内存错误加载1GB .ACCDB使用pypyodbc和熊猫

我试图做一些事情，也许是不可能的，也许还是应该以不同的方式来完成...内存错误加载1GB .ACCDB使用pypyodbc和熊猫

我要读1 GB的访问文件并在熊猫中操作;由于cursor.fetchall()直接与Memory Error失败，我尝试了下面的函数以查看内存错误何时发生：它在400.000行读取后出现（总数为1.12 Mrows）。

这很奇怪，因为我在我的机器上有8 GB的ram，它似乎是50％的免费。我也将我的虚拟内存设置为16 GB，但结果没有改变。

我不需要微积分速度，所以任何肮脏的解决方案是欢迎:)包括使用硬盘作为ram（我有一个ssd）。

也许有办法让所有的内存可用于Python？

单列获取：cursor.fetchone()
很多行获取：cursor.fetchmany()
所有行获取：cursor.fetchall()
大熊猫read_sql传递chunksize：pandas.read_sql(query, conn, chunksize=chunksize)（感谢那些已经失败

方式给用户MaxU）

功能：

def msaccess_to_df (abs_path, query): conn = pypyodbc.connect( r"Driver={Microsoft Access Driver (*.mdb, *.accdb)};" r"Dbq=" + abs_path + ";") cur = conn.cursor() cur.execute(query) fields = zip(*cur.description)[0] df = pandas.DataFrame(columns=fields) fetch_lines_per_block = 5000 i = 0 while True: rows = cur.fetchmany(fetch_lines_per_block) # <----- if len(rows) == 0: break else: rd = [dict(zip(fields, r)) for r in rows] df = df.append(rd, ignore_index=True) del rows del rd i+=1 print 'fetched', i*fetch_lines_per_block, 'lines' cur.close() conn.close() return df

该错误：

df = df.append(rd, ignore_index=True) File "C:\Python27\lib\site-packages\pandas\core\frame.py", line 4338, in append verify_integrity=verify_integrity) File "C:\Python27\lib\site-packages\pandas\tools\merge.py", line 845, in concat copy=copy) File "C:\Python27\lib\site-packages\pandas\tools\merge.py", line 904, in __init__ obj.consolidate(inplace=True) File "C:\Python27\lib\site-packages\pandas\core\generic.py", line 2747, in consolidate self._consolidate_inplace() File "C:\Python27\lib\site-packages\pandas\core\generic.py", line 2729, in _consolidate_inplace self._protect_consolidate(f) File "C:\Python27\lib\site-packages\pandas\core\generic.py", line 2718, in _protect_consolidate result = f() File "C:\Python27\lib\site-packages\pandas\core\generic.py", line 2727, in f self._data = self._data.consolidate() File "C:\Python27\lib\site-packages\pandas\core\internals.py", line 3273, in consolidate bm._consolidate_inplace() File "C:\Python27\lib\site-packages\pandas\core\internals.py", line 3278, in _consolidate_inplace self.blocks = tuple(_consolidate(self.blocks)) File "C:\Python27\lib\site-packages\pandas\core\internals.py", line 4269, in _consolidate _can_consolidate=_can_consolidate) File "C:\Python27\lib\site-packages\pandas\core\internals.py", line 4292, in _merge_blocks new_values = new_values[argsort] MemoryError

####################编辑 - 解决####################

最后我解决了

设定机虚拟存储器至16GB

安装Python 64位

与64位一个（https://www.microsoft.com/en-us/download/confirmation.aspx?id=13255）

利用这种方法的任何工作更换访问驱动程序。

来源

2016-07-04 DPColombotto

啊！如果您的机器允许，只需推荐Python 64位。请将您的编辑张贴为未来读者的答案。 – Parfait

我会用本地大熊猫方法 - read_sql()，而不是在循环手动读取行：

def msaccess_to_df (abs_path, query): 
    conn = pypyodbc.connect(
     r"Driver={Microsoft Access Driver (*.mdb, *.accdb)};" 
     r"Dbq=" + abs_path + ";") 

    df = pd.read_sql(query, conn) 
    conn.close() 
    return df

如果您仍然收到MemoryError例外，尝试在块读取数据：

def msaccess_to_df (abs_path, query, chunksize=10**5): 
    conn = pypyodbc.connect(
     r"Driver={Microsoft Access Driver (*.mdb, *.accdb)};" 
     r"Dbq=" + abs_path + ";") 

    df = pd.concat([x for x in pd.read_sql(query, conn, chunksize=chunksize)], 
        ignore_index=True) 
    conn.close() 
    return df

PS这应该给你一个想法，但请注意，我没有测试这个代码，所以它可能需要一些调试...

来源

2016-07-04 22:55:44 MaxU

谢谢，但也与'chunksize'我一段时间后仍然有内存错误，即使我有3 GB的RAM免费（在Windows资源监视器中查看）。 – DPColombotto

内存错误加载1GB .ACCDB使用pypyodbc和熊猫

回答

相关问题