dask

11热度

1回答

我有一个由100,000+行组成的数据框，每行有100,000列，总计为10,000,000,000浮点值。我已经成功在csv（制表符分隔）文件中读取他们以前和我他们成功读取到50个核至强机250GB RAM，并尝试写出来作为.parq目录，例如： huge.csv中的花车被保存为字符串，它是125GB。 import dask.dataframe as dd filename = 'huge

2热度

1回答

有没有关于通过SSH隧道连接的dask集群的任何文档？

我正在尝试在只有端口22 for SSH的系统上安装dask群集。这是可行的吗？我试过使用端口转发，并看到一些连接，但事情崩溃了。有没有关于这方面的文件？

3热度

1回答

在arccos中遇到的dask/python无效值

我对python相当陌生，并且正在使用dask，但我一直得到RuntimeWarning，并没有真正明白为什么。有些见解会很好。代码： x2 = da.random.uniform(0.01,0.1,size=1e6,chunks= 1e5) %time asd2 = da.arccos(x2) 这不断给我： C：\ ProgramsPhD \蟒蛇\ LIB \站点包\ DASK \排列\

2热度

2回答

如何重命名一个Dask Dataframe的索引

我将如何去重命名dask数据框上的索引？我试过了，就像这样 df.index.name = 'foo' 但复查df.index.name显示它仍然是以前的东西。

2热度

1回答

Dask图形执行和内存使用

我正在dask构建一个非常大的DAG，以提交给分布式调度程序，其中节点在数据框上运行，这些数据框本身可能非常大。一种模式是我有大约50-60个函数来加载数据并构建每个数百MB的熊猫数据框（并且逻辑上表示单个表的分区）。我想将它们连接成图中下游节点的单个dask数据帧，同时最小化数据移动。我链接像这样的任务： dfs = [dask.delayed(load_pandas)(i) for i in

1热度

1回答

熊猫大CSV

上一篇文章的延续。以前，我曾帮助使用Pandas在数据框中创建新列，并且每个值都会根据另一列的值表示分解值或唯一值。我在一个测试用例上使用了它，并且它可以成功运行，但是我有一个更大的日志和htm文件来执行相同的过程。我有12个日志文件（每个月），并将它们合并后，我得到一个17Gb文件。我想分解每个用户名。我一直在研究使用Dask，但是，我无法复制排序的功能并将因数分解为我想要的Dask数据帧。尝试

0热度

1回答

BokehWebInterface不适用于Dask分布式

我已将Dask从版本0.14.3更新为0.15.0，并从1.16.3分发到1.17.0。 BokehWebInterface已从此版本中删除。主页可以加载http://localhost:8787，但我无法访问任务，状态，工作人员（它试图重新加载，直到所有任务完成，然后给出不能达到错误）。一切用于在早期版本上工作。 loop = IOLoop.current() t = Thread(targe

0热度

1回答

如何扩展Dask有权访问的内存？

开发人员应该通过发布大型数组来使用Dask作为数据库吗？如果是这样，建议的工作流程应该怎样增加Dask可以访问的内存（除了修改机器本身）？

2热度

1回答

Dask在这里展示了哪些内存？

运行dask-worker之后，我看到下面的输出与40.53 GB的内存。 40.53 GB是指这里的分布式内存还是磁盘内存？由于

4热度

1回答

如何将GRIB文件的目录加载到Dask数组中

假设我有一个包含数千个GRIB文件的目录。我想将这些文件加载到一个dask数组中，以便我可以查询它们。我怎么能这样做呢？下面的尝试似乎可行，但它需要打开每个GRIB文件，而且它需要很长时间才能运行并记录下我的所有内容。一定会有更好的办法。我尝试： import dask.array as da from dask import delayed import gdal import gl