我正在dask构建一个非常大的DAG,以提交给分布式调度程序,其中节点在数据框上运行,这些数据框本身可能非常大。一种模式是我有大约50-60个函数来加载数据并构建每个数百MB的熊猫数据框(并且逻辑上表示单个表的分区)。我想将它们连接成图中下游节点的单个dask数据帧,同时最小化数据移动。我链接像这样的任务: dfs = [dask.delayed(load_pandas)(i) for i in
这是一个后续问题,以回答我之前关于使用Dask计算到access one element in a large array的问题之一的可能答案。 为什么使用Dask计算会导致执行挂起? 这里的工作代码片段: #Suppose you created a scheduler at the ip address of 111.111.11.11:8786
from dask.distribute