dask

    1热度

    1回答

    我试图使用lambdas作为函数来应用于创建dask数据框列表的for循环中的dask数据帧。 当我计算每个数据帧时,它们都使用最后一个lambda表达式,而不是循环过程中的一个。 例子: ddf = dataframe.from_pandas(pd.DataFrame([[1, 10],[1, 5],[2, 9],[2, 4]], columns=['group', 'value']), np

    3热度

    2回答

    我想根据一组索引键获取Dask数据帧的行的子集。 (具体来说,我想查找其索引不在ddf2索引中的ddf1行)。 cache.drop([overlap_list])和diff = cache[should_keep_bool_array]都会抛出NotImplementedException,否则不起作用。 这样做的最好方法是什么?

    1热度

    1回答

    我得到这个错误与此PARAMS: import pandas as pd import numpy as np from sqlalchemy import create_engine import dask.dataframe as dd from sqlalchemy.sql import text query = text("Some SQL statement") df = d

    0热度

    1回答

    我只是想 import dask.dataframe as dd df = dd.read_csv("data.csv") print(df.describe()) 这给 Dask DataFrame Structure: SOME_COL FOO BAR npartitions=1 float64 float64 float64 ...

    4热度

    1回答

    我有一种情况,我需要按位置索引一个dask数据帧。我发现没有可用的.iloc方法。有其他选择吗?或者我需要使用基于标签的索引? 例如,我想 import dask.dataframe as dd import numpy as np import pandas as pd df = dd.from_pandas(pd.DataFrame({k:np.random.random(10) for

    1热度

    1回答

    TL;博士: 是否有可能.set_index()方法在几个DASK Dataframes 并行 同时?或者,是否有可能在几个Dask数据帧上懒洋洋地插入.set_index(),因此会导致 并行地被设置为 ? 下面是这种情况: 我有几个时间序列 每个时间序列存储的是几个.csv文件。每个文件都包含与特定日期相关的数据。此外,文件分散在不同的文件夹中(每个文件夹包含一个月的数据) 每个时间序列具有不

    0热度

    1回答

    我在S3中存储了两个(或多个)并行文本文件 - 即第一个文件中的第一行对应于第二个文件中的第一行等。我想将这些文件作为列读入一个文件dask数据帧。什么是最好/最简单/最快的方式来做到这一点? PS。我可以将它们中的每一个读入单独的数据框,但是因为数据帧索引值似乎既不是唯一的也不是单调的,所以我无法将它们连接到索引上。同时,行的对应关系由它们在每个文件中的位置来定义。

    1热度

    1回答

    这是一个DASK数据帧的负荷子集的内存的有效方法: while i < len_df: j = i + batch_size if j > len_df: j = len_df subset = df.loc[i:j,'source_country_codes'].compute() 我读的地方,这可能不是因为DASK如何分配,因为这将在更大的索引号是

    1热度

    1回答

    使用分布式来调度运行在谷歌计算引擎上的大量相互依赖的任务。当我在中途启动一个额外的工作实例时,没有任何任务被安排到它(尽管它与调度程序一起正常登记)。我相信这是因为(从http://distributed.readthedocs.io/en/latest/scheduling-state.html#distributed.scheduler.decide_worker): “如果任务需要数据通信,

    0热度

    1回答

    我想读取浮点数字流,做一些简单的计算并将该值附加到全局列表中。你能说出我错了吗?该列表不附加。 from random import random from time import sleep def process(x): from random import random sleep(random()*2) t = x * 2 processed_