dask

    11热度

    1回答

    我有一个由100,000+行组成的数据框,每行有100,000列,总计为10,000,000,000浮点值。 我已经成功在csv(制表符分隔)文件中读取他们以前和我他们成功读取到50个核至强机250GB RAM,并尝试写出来作为.parq目录,例如: huge.csv中的花车被保存为字符串,它是125GB。 import dask.dataframe as dd filename = 'huge

    2热度

    1回答

    我正在尝试在只有端口22 for SSH的系统上安装dask群集。这是可行的吗?我试过使用端口转发,并看到一些连接,但事情崩溃了。有没有关于这方面的文件?

    3热度

    1回答

    我对python相当陌生,并且正在使用dask,但我一直得到RuntimeWarning,并没有真正明白为什么。有些见解会很好。 代码: x2 = da.random.uniform(0.01,0.1,size=1e6,chunks= 1e5) %time asd2 = da.arccos(x2) 这不断给我: C:\ ProgramsPhD \蟒蛇\ LIB \站点包\ DASK \排列\

    2热度

    2回答

    我将如何去重命名dask数据框上的索引?我试过了,就像这样 df.index.name = 'foo' 但复查df.index.name显示它仍然是以前的东西。

    2热度

    1回答

    我正在dask构建一个非常大的DAG,以提交给分布式调度程序,其中节点在数据框上运行,这些数据框本身可能非常大。一种模式是我有大约50-60个函数来加载数据并构建每个数百MB的熊猫数据框(并且逻辑上表示单个表的分区)。我想将它们连接成图中下游节点的单个dask数据帧,同时最小化数据移动。我链接像这样的任务: dfs = [dask.delayed(load_pandas)(i) for i in

    1热度

    1回答

    上一篇文章的延续。以前,我曾帮助使用Pandas在数据框中创建新列,并且每个值都会根据另一列的值表示分解值或唯一值。我在一个测试用例上使用了它,并且它可以成功运行,但是我有一个更大的日志和htm文件来执行相同的过程。我有12个日志文件(每个月),并将它们合并后,我得到一个17Gb文件。我想分解每个用户名。我一直在研究使用Dask,但是,我无法复制排序的功能并将因数分解为我想要的Dask数据帧。尝试

    0热度

    1回答

    我已将Dask从版本0.14.3更新为0.15.0,并从1.16.3分发到1.17.0。 BokehWebInterface已从此版本中删除。主页可以加载http://localhost:8787,但我无法访问任务,状态,工作人员(它试图重新加载,直到所有任务完成,然后给出不能达到错误)。一切用于在早期版本上工作。 loop = IOLoop.current() t = Thread(targe

    0热度

    1回答

    开发人员应该通过发布大型数组来使用Dask作为数据库吗?如果是这样,建议的工作流程应该怎样增加Dask可以访问的内存(除了修改机器本身)?

    2热度

    1回答

    运行dask-worker之后,我看到下面的输出与40.53 GB的内存。 40.53 GB是指这里的分布式内存还是磁盘内存?由于

    4热度

    1回答

    假设我有一个包含数千个GRIB文件的目录。我想将这些文件加载​​到一个dask数组中,以便我可以查询它们。我怎么能这样做呢?下面的尝试似乎可行,但它需要打开每个GRIB文件,而且它需要很长时间才能运行并记录下我的所有内容。一定会有更好的办法。 我尝试: import dask.array as da from dask import delayed import gdal import gl