dask

    5热度

    1回答

    我已经在群集上启动并运行了dask,但似乎无法访问诊断网页。着陆页是可见的,见下图: 但是所有的链接只是挂永不加载页面。 调度开始细跟这样的输出: [[email protected] ~]$ dask-scheduler --scheduler-file dask-scheduler.json distributed.scheduler - INFO - -------------------

    2热度

    1回答

    当与后端multiprocessing一起使用时,进度条的运行非常漂亮,但使用distributed调度程序作为后端时看起来完全不起作用。 有没有办法解决这个问题?还是另一种解决方案distributed包本身有一些进度条,但它们都需要一个未来的工作列表。

    0热度

    1回答

    我试图从read_parquet Concat的DaskDataFrame,然后应用查询过滤器,然后品尝它封顶最终数据帧大小小于或等于10000下面是伪代码: import dask.dataframe as dd df = dd.concat([ dd.read_parquet(path, index='date').query("(col0 < 4) & (date < '20170201

    1热度

    1回答

    我正在使用Pandas中的代码,其中涉及读取大量文件,然后对循环内的每个文件(它遍历文件列表)执行各种操作。 我试图将此转换为基于Dask的方法而不是基于Pandas的方法,并且迄今为止进行了以下尝试 - 我是Dask的新手,需要询问这是否是合理的方法。 这里是输入数据的样子: A X1 X2 X3 A_d S_d 0 1.0 0.475220 0.839753 0.872468 1 1

    1热度

    2回答

    初学者问题了一点,但我没能找到这个相关答案.. 本质上我的有关数据(7GB)位于我的本地机器上。我有分布式群集在本地网络上运行。我怎样才能把这个文件放到集群上? 通常的dd.read_csv()或read_parquet()失败,因为工作人员无法在自己的环境中找到该文件。 我需要手动将文件传输到群集中的每个节点吗? 注:由于管理的限制,我仅限于SFTP ...

    3热度

    2回答

    当在包含numpy数组的dask.bag上执行foldby时,我从dask/numpy得到非常无意义的FutureWarning消息。 def binop(a, b): print('binop') return a + b[1] def combine(a, b): print('combine') return a + b[1] seq = ((

    3热度

    1回答

    ,我有以下DASK数据帧在Python垂直串联: A B C D E F 0 1 4 8 1 3 5 1 6 6 2 2 0 0 2 9 4 5 0 6 35 3 0 1 7 10 9 4 4 0 7 2 6 1 2 我试图串连垂直2个DASK DataFrames: ddf_i = dd

    0热度

    1回答

    当我在像熊猫的数据帧: raw_data = { 'subject_id': ['1', '2', '3', '4', '5'], 'name': ['A', 'B', 'C', 'D', 'E'], 'nationality': ['DE', 'AUT', 'US', 'US', 'US'], 'alotdifferent': ['x', 'y',

    1热度

    1回答

    我想知道如果我可以使用dask而不是熊猫。我可能会遇到什么问题? 1)我猜dask对于较小的数据集比pandas要慢。我确定,因为有时我不知道数据的大小,也不知道服务器配置。 2)我将不得不学会一个稍微不同的语法(例如计算) 我将面对的情况是DASK数据帧不能做一些事情,大熊猫数据帧可以吗?

    2热度

    1回答

    我有一个HDF5文件,我想加载到Dask DataFrame的列表中。我已经在Dask pipeline approach的缩写版本后面使用了一个循环来设置它。下面是代码: import pandas as pd from dask import compute, delayed import dask.dataframe as dd import os, h5py @delayed