dask

1热度

1回答

由于特定于我的构建系统的原因，我当前不能运行dask-scheduler CLI - 我必须从代码启动调度程序（示例在dask.distributed文档中提供）。是否还有一种方法可以为调度程序启动和自定义（即选择端口）Web GUI？

1热度

1回答

我有超过1B记录的Parquet文件。我试图运行与下面的语句groupby： dfg = df[['col1','col2','col3']].groupby(['col1','col2']]).count().compute() 我用下面的配置的client运行。 client = distributed.Client(set_as_default=True) 我得到一个MemoryErr

0热度

1回答

调试dask - 未能检测到客户端

我的daskgroupby脚本失败（Memory Error），所以我开始调试脚本。我正在一台独立电脑上运行。我已经更新在config.yaml文件logging与 logging: distributed: debug bokeh: debug tornado: info 我运行dask distributed example computation以下更新： from distributed

2热度

1回答

如何依次聚合dask Bag的内容？

我想依次聚合分区集合的内容与不关联的聚合函数，因此我不能使用Bag.fold或Bag.reduction。有Bag.accumulate似乎做这个手术，但它返回一个袋子一些每个分区的中间结果，而不仅仅是最后汇总： >>> import dask.bag as db >>> >>> def collect(acc, e): ... if acc is None: ... acc =

3热度

2回答

使用大型（+15 gb）CSV数据集和Pandas/XGBoost

我试图找到一种方式开始在熊猫中使用非常大的CSV文件，最终能够使用XGBoost进行一些机器学习。我在使用mySQL或一些sqllite框架来管理我的数据块之间徘徊;我的问题是稍后在机器学习方面的问题，以及一次加载大块数据以训练模型。我的另一个想法是使用Dask，它由Pandas构建而成，但也具有XGBoost功能。我不确定什么是最好的出发点，并希望征求意见！我倾向于Dask，但我还没有使用

2热度

1回答

DASK计算与子期货

我希望提交一个DASK的任务，将做到以下几点：使用dask.bag（def fakejob）计算图表建立一个懒DASK图表从1和保存它要实木复合地板（留下这部分，只是一个动机）我需要为多个输入做到这一点，所以我一直在尝试使用dask.distributed的期货功能。 from dask.distributed import Client client = Client(processe

3热度

1回答

与Python拼接的嵌套数据

我有一个文件每行有一个JSON。下面是一个示例： { "product": { "id": "abcdef", "price": 19.99, "specs": { "voltage": "110v", "color": "white" } }, "user": "Daniel Severo"

1热度

1回答

在dask分发线程池中的任务

我一直在阅读有关在worker上运行的任务生成新进程的文档。我碰到这个从here：然而，每个正在运行的任务占用了一个单独的线程，所以如果你启动启动其他任务很多任务则是可能的，如果你不小心死锁系统。您可以拨打分裂出去的功能在任务中，我们将会从专门的线程池删除本身到不与DASK工人中占用一个插槽行政螺纹是什么意思移动到行政线？所有插槽都具有相同的优先级还是类似的？管理线程有优先权吗？举一个具体的

0热度

1回答

使用partition_on选项运行dask to_parquet方法时松动列

3热度

1回答

生成镶木地板文件 - R和Python之间的差异

我们在Dask（Python）和Drill（使用Sergeant数据包的R）中生成parquet文件。我们已经注意到了一些问题：的Dask（即fastparquet）的格式具有_metadata和_common_metadata文件而parquet文件中R \ Drill没有这些文件，并有parquet.crc文件，而不是（可删除）。这些parquet实现之间有什么区别？