2017-07-14 72 views
-2

更新: 经过一些额外的搜索。我瘦我过度使用scikit学习。如果我想要一个生产ML工具。我应该使用基于hadoop的mahout。 scikit-learn更像是一个用于实验想法的玩具工具。scikit学习任务管理库

我是scikit-learn的新手。我尝试使用scikit-learn来训练模型,我想试验不同的特征组合和数据预处理技术。每个实验都需要几个小时(为了最大限度地减少错误,我会用不同的训练测试分割运行每个实验10次),所以我写了一些python脚本来自动运行实验,当一个实验完成时,它会传一个电子邮件给我。

它运行良好,我发现今天可以运行我的实验的另一台服务器,这似乎是合理的,我应该写一些脚本,可以运行实验的发行时尚。有像hadoop这样的大数据平台,但我发现它不适用于python和scikit-learn(请指出我如果我对hadoop的理解错误)。

由于scikit-learn是一个“旧”库,所以我认为应该有现有的库具有我想要的这些功能。或者我在scikit-learn的错误方向运行?

我试图谷歌“scikit学习任务管理”,但没有我想要的结果。其他关键词搜索也非常受欢迎。

+0

你想例如一个服务器上提交作业(运行脚本)?说“任务管理器”是什么意思? – sera

+0

我有很多实验要运行。然后,最有效的方法是在任何可用的服务器上自动运行它们。我可以编写脚本来做到这一点,事实上我的脚本在单机上运行良好。但在继续编写脚本以在多台服务器上分发任务之前。我想知道是否有图书馆或工具具有这种能力。或者,如果这些要求不是scikit-learn做的事情。 –

+0

你有没有使用Scikit-learn学习Dask? https://matthewrocklin.com/blog/work/2017/02/07/dask-sklearn-simple –

回答

0

见“实验框架”在

+0

谢谢!这正是我想要的。 –