我正在dask构建一个非常大的DAG,以提交给分布式调度程序,其中节点在数据框上运行,这些数据框本身可能非常大。一种模式是我有大约50-60个函数来加载数据并构建每个数百MB的熊猫数据框(并且逻辑上表示单个表的分区)。我想将它们连接成图中下游节点的单个dask数据帧,同时最小化数据移动。我链接像这样的任务: dfs = [dask.delayed(load_pandas)(i) for i in
假设我有一个包含数千个GRIB文件的目录。我想将这些文件加载到一个dask数组中,以便我可以查询它们。我怎么能这样做呢?下面的尝试似乎可行,但它需要打开每个GRIB文件,而且它需要很长时间才能运行并记录下我的所有内容。一定会有更好的办法。 我尝试: import dask.array as da
from dask import delayed
import gdal
import gl