dask

5热度

1回答

我已经在群集上启动并运行了dask，但似乎无法访问诊断网页。着陆页是可见的，见下图：但是所有的链接只是挂永不加载页面。调度开始细跟这样的输出： [[email protected] ~]$ dask-scheduler --scheduler-file dask-scheduler.json distributed.scheduler - INFO - -------------------

2热度

1回答

Dask ProgressBar不适用于分布式后端

当与后端multiprocessing一起使用时，进度条的运行非常漂亮，但使用distributed调度程序作为后端时看起来完全不起作用。有没有办法解决这个问题？还是另一种解决方案distributed包本身有一些进度条，但它们都需要一个未来的工作列表。

0热度

1回答

DASK数据框中查询然后抽样误差

我试图从read_parquet Concat的DaskDataFrame，然后应用查询过滤器，然后品尝它封顶最终数据帧大小小于或等于10000下面是伪代码： import dask.dataframe as dd df = dd.concat([ dd.read_parquet(path, index='date').query("(col0 < 4) & (date < '20170201

1热度

1回答

将Python Dask系列转换为列表或用于循环的Dask DataFrame

我正在使用Pandas中的代码，其中涉及读取大量文件，然后对循环内的每个文件（它遍历文件列表）执行各种操作。我试图将此转换为基于Dask的方法而不是基于Pandas的方法，并且迄今为止进行了以下尝试 - 我是Dask的新手，需要询问这是否是合理的方法。这里是输入数据的样子： A X1 X2 X3 A_d S_d 0 1.0 0.475220 0.839753 0.872468 1 1

1热度

2回答

加载客户端从本地文件到DASK分布式集群

初学者问题了一点，但我没能找到这个相关答案.. 本质上我的有关数据（7GB）位于我的本地机器上。我有分布式群集在本地网络上运行。我怎样才能把这个文件放到集群上？通常的dd.read_csv（）或read_parquet（）失败，因为工作人员无法在自己的环境中找到该文件。我需要手动将文件传输到群集中的每个节点吗？注：由于管理的限制，我仅限于SFTP ...

3热度

2回答

dask bag foldby with numpy arrays

当在包含numpy数组的dask.bag上执行foldby时，我从dask/numpy得到非常无意义的FutureWarning消息。 def binop(a, b): print('binop') return a + b[1] def combine(a, b): print('combine') return a + b[1] seq = ((

3热度

1回答

的Python DASK - 2个DataFrames

，我有以下DASK数据帧在Python垂直串联： A B C D E F 0 1 4 8 1 3 5 1 6 6 2 2 0 0 2 9 4 5 0 6 35 3 0 1 7 10 9 4 4 0 7 2 6 1 2 我试图串连垂直2个DASK DataFrames： ddf_i = dd

0热度

1回答

大熊猫/ DASK计算百分比为多个列 - 列并行操作

当我在像熊猫的数据帧： raw_data = { 'subject_id': ['1', '2', '3', '4', '5'], 'name': ['A', 'B', 'C', 'D', 'E'], 'nationality': ['DE', 'AUT', 'US', 'US', 'US'], 'alotdifferent': ['x', 'y',

1热度

1回答

Dask就地更换熊猫？

我想知道如果我可以使用dask而不是熊猫。我可能会遇到什么问题？ 1）我猜dask对于较小的数据集比pandas要慢。我确定，因为有时我不知道数据的大小，也不知道服务器配置。 2）我将不得不学会一个稍微不同的语法（例如计算）我将面对的情况是DASK数据帧不能做一些事情，大熊猫数据帧可以吗？

2热度

1回答

将HDF文件加载到Python Dask DataFrame的列表中

我有一个HDF5文件，我想加载到Dask DataFrame的列表中。我已经在Dask pipeline approach的缩写版本后面使用了一个循环来设置它。下面是代码： import pandas as pd from dask import compute, delayed import dask.dataframe as dd import os, h5py @delayed