1
这是一个DASK数据帧的负荷子集的内存的有效方法:子集DASK DataFrames
while i < len_df:
j = i + batch_size
if j > len_df:
j = len_df
subset = df.loc[i:j,'source_country_codes'].compute()
我读的地方,这可能不是因为DASK如何分配,因为这将在更大的索引号是正确的数据帧转换成更小的熊猫dfs。另外我不认为dask数据框具有iloc
属性。 我正在使用的版本是0.15.2
就用例而言,这将是一种将批量数据加载到深度学习(如keras)的方式。
但后一种方法将保证我将贯穿整个数据集吗?我还应该提到我之前做过这样的事情:'df = dd.from_pandas(df,16)'。它会导致冲突还是只做另一个分区? –
是的,这将包括整个数据集。您可以安全地重新分配。或者,您可以使用不同数量的分区来调用from_pandas。无论哪种方式,一切都应该很好。 – MRocklin