dask

    1热度

    1回答

    确定两个Dask对象是否引用相同结果的正确方法是什么?这与比较两者的name属性一样简单还是需要运行其他检查吗?

    2热度

    1回答

    我试图在使用Dask和read_text的json文件上运行一系列操作,但是当我检查Linux系统监视器时,只有一个内核在100%时使用过。我如何知道我在Dask Bag上执行的操作是否可以并行化?下面是我在做什么的基本布局: import dask.bag as db import json js = db.read_text('path/to/json').map(json.loads)

    1热度

    1回答

    当多个用户上传(upload_file)相同的python文件或zip内容的略微不同的版本时,我特别感兴趣的是避免冲突。 看起来这不是真正的支持用例,因为工作进程是长期运行的并且受到其他环境的更改/添加影响。 我喜欢图书馆的简单按需本地/远程上下文切换,所以希望了解我们可能拥有哪些选项的任何洞察,即使这意味着针对用户特定的工作进程的一些无缝的类似部署步骤。

    2热度

    1回答

    我在许多功能中看到参数npartitions,但我不明白它对于/用于什么有好处。 http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_csv 头(...) 如果有少于n行的第一个nPartition的 元素只能从第一nPartition的拍摄,与1默认将显示一条警告被提出并返回任何找到的行。传递-1以使用所

    0热度

    1回答

    我正在运行一个非常简单的操作,或者我认为这样做,所以我必须做一些非常愚蠢的事情。但我用尽了选择..所以这是一个问题。 我正在使用dask分发来加载数据从parquet表配置单元/ snappy/80文件,400M /行,8列,其中,由于绝望,我只读了一列,并计算其总和,无济于事。 我正在使用内存限制来强制内存使用率很低,但是这样的限制被忽略。在笔记本 c=Client("192.168.33.23

    1热度

    1回答

    以下测试出现意外行为。我很可能误解了一些东西,但目前我没有想法,并希望得到输入。考虑以下测试: # test passing an object from dask import delayed, compute, get, set_options # for testing the caching from dask.base import normalize_token from da

    1热度

    1回答

    与dask.distributed调度程序一起使用Dask时,我的任务返回KilledWorker异常。这些错误意味着什么?

    1热度

    1回答

    的triggers柱的样品中我DASK数据帧如下所示: 0 [Total Traffic, DNS, UDP] 1 [TCP RST] 2 [Total Traffic] 3 [IP Private] 4 [ICMP] Name: triggers, dtype: object 我想创建上述阵列的一个热点编码版本(放例如,针对第1行中的DNS列的1),

    1热度

    1回答

    我有一个hive格式和快速压缩的parquet文件。它适合内存,pandas.info提供以下数据。 在拼花文件每组的行数仅仅是100K >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+dfVQvrBVGO8j1mfqe4ZHc= to oE4y

    1热度

    1回答

    我需要导入大型数据集并合并它们。我知道其他类似的问题,但我找不到针对我的问题的答案。看起来,dask我能够将大型数据集读入数据帧,但我无法将其与另一个数据帧合并。 import dask.dataframe as dd import pandas as pd #I have to do this with dask since with pandas I get mem issue and