dask-delayed

    2热度

    1回答

    我正在dask构建一个非常大的DAG,以提交给分布式调度程序,其中节点在数据框上运行,这些数据框本身可能非常大。一种模式是我有大约50-60个函数来加载数据并构建每个数百MB的熊猫数据框(并且逻辑上表示单个表的分区)。我想将它们连接成图中下游节点的单个dask数据帧,同时最小化数据移动。我链接像这样的任务: dfs = [dask.delayed(load_pandas)(i) for i in

    0热度

    1回答

    这是一个后续问题,以回答我之前关于使用Dask计算到access one element in a large array的问题之一的可能答案。 为什么使用Dask计算会导致执行挂起? 这里的工作代码片段: #Suppose you created a scheduler at the ip address of 111.111.11.11:8786 from dask.distribute

    0热度

    2回答

    dask.compute(...)预计是阻止呼叫。但是,当我嵌套dask.compute,并且内部一个I/O(如dask.dataframe.read_parquet)时,内部dask.compute不会阻塞。下面是一个伪代码示例:如果我开始2名工人8个处理每个像 import dask, distributed def outer_func(name): files = find_

    0热度

    1回答

    当使用delayed创建计算图时,我试图指定名称,以便如果我将图形可视化,则它是可读的。但是,对于依赖函数的延迟变量,参数name似乎不影响密钥。这里有一个玩具例子: def calc_avg(a, b): return pd.concat([a, b], axis=1).mean(axis=1) def calc_ratio(a, b): return a/b a =