dask

    1热度

    1回答

    由于特定于我的构建系统的原因,我当前不能运行dask-scheduler CLI - 我必须从代​​码启动调度程序(示例在dask.distributed文档中提供)。是否还有一种方法可以为调度程序启动和自定义(即选择端口)Web GUI?

    1热度

    1回答

    我有超过1B记录的Parquet文件。 我试图运行与下面的语句groupby: dfg = df[['col1','col2','col3']].groupby(['col1','col2']]).count().compute() 我用下面的配置的client运行。 client = distributed.Client(set_as_default=True) 我得到一个MemoryErr

    0热度

    1回答

    我的daskgroupby脚本失败(Memory Error),所以我开始调试脚本。我正在一台独立电脑上运行。 我已经更新在config.yaml文件logging与 logging: distributed: debug bokeh: debug tornado: info 我运行dask distributed example computation以下更新: from distributed

    2热度

    1回答

    我想依次聚合分区集合的内容与不关联的聚合函数,因此我不能使用Bag.fold或Bag.reduction。 有Bag.accumulate似乎做这个手术,但它返回一个袋子一些每个分区的中间结果,而不仅仅是最后汇总: >>> import dask.bag as db >>> >>> def collect(acc, e): ... if acc is None: ... acc =

    3热度

    2回答

    我试图找到一种方式开始在熊猫中使用非常大的CSV文件,最终能够使用XGBoost进行一些机器学习。 我在使用mySQL或一些sqllite框架来管理我的数据块之间徘徊;我的问题是稍后在机器学习方面的问题,以及一次加载大块数据以训练模型。 我的另一个想法是使用Dask,它由Pandas构建而成,但也具有XGBoost功能。 我不确定什么是最好的出发点,并希望征求意见!我倾向于Dask,但我还没有使用

    2热度

    1回答

    我希望提交一个DASK的任务,将做到以下几点: 使用dask.bag(def fakejob) 计算图表建立一个懒DASK图表从1和保存它要实木复合地板(留下这部分,只是一个动机) 我需要为多个输入做到这一点,所以我一直在尝试使用dask.distributed的期货功能。 from dask.distributed import Client client = Client(processe

    3热度

    1回答

    我有一个文件每行有一个JSON。下面是一个示例: { "product": { "id": "abcdef", "price": 19.99, "specs": { "voltage": "110v", "color": "white" } }, "user": "Daniel Severo"

    1热度

    1回答

    我一直在阅读有关在worker上运行的任务生成新进程的文档。我碰到这个从here: 然而,每个正在运行的任务占用了一个单独的线程,所以如果你启动启动其他任务很多任务则是可能的,如果你不小心死锁系统。您可以拨打分裂出去的功能在任务中,我们将会从专门的线程池删除本身到不与DASK工人中占用一个插槽行政螺纹 是什么意思移动到行政线?所有插槽都具有相同的优先级还是类似的?管理线程有优先权吗? 举一个具体的

    0热度

    1回答

    我有数据需要优化才能执行group_by。 目前我有几个parquet文件(超过2.5B行)的数据看起来如下: ID1 | ID2 |位置| AERPLORDRVA | AOAAATDRLVA |无 ASDFGHJHASA | QWEFRFASEEW |家 我加入第三列,以重新保存的分区的文件(也append他们),希望能与groupby df['ID4']=df.ID1.apply(lambda

    3热度

    1回答

    我们在Dask(Python)和Drill(使用Sergeant数据包的R)中生成parquet文件。我们已经注意到了一些问题: 的Dask(即fastparquet)的格式具有_metadata和_common_metadata文件而parquet文件中R \ Drill没有这些文件,并有parquet.crc文件,而不是(可删除)。这些parquet实现之间有什么区别?