2017-05-25 226 views
0

我已经试过以下(PD是大熊猫):如何使用Pandas分割大型Excel文件?

for i, chunk in pd.read_excel(os.path.join(INGEST_PATH,file), chunksize=5): 

,但我收到此错误:

NotImplementedError: chunksize keyword of read_excel is not implemented 

我试图寻找其他方法,但其中大部分是CSV文件,而不是xlsx,我也有熊猫版本0.20.1
任何帮助表示赞赏。

+0

您是否尝试过这些解决方案? https://stackoverflow.com/questions/38623368/reading-a-portion-of-a-large-xlsx-file-with-python/38623545 –

+0

我不熟悉'chunksize'。一种可能性,你可以先读取excel到一个数据框中,然后用'numpy.array_split'或类似的东西来拆分数据框的索引。 – zyxue

+0

@RileyHun我试过两个,得到相同的块大小错误。 – Pear

回答

0
df = pd.read_excel(os.path.join(INGEST_PATH,file)) 

# split indexes 
idxes = np.array_split(df.index.values, 5) 

chunks = [df.ix[idx] for idx in idxes]