我一直在努力的机器学习KNN(K近邻)算法使用Python和Python的Scikit学习机器学习API。Scikit学习KNN(K近邻)并行使用Apache星火
我创建的示例代码与玩具的数据集简单地使用Python和Scikit学习,我的KNN工作正常。但正如我们所知,Scikit-learn API可以在单机上运行,因此一旦我将玩具数据替换为数百万个数据集,它会降低我的输出性能。
...我已经寻找许多选项,帮助和代码示例,这将使用与火花Scikit学习API发布我的机器学习处理并行,但我没有发现任何妥善的解决方案和示例。
能否请您让我知道我可以做到,并增加我与Apache Spark和Scikit学习API的k近邻的表现?
在此先感谢!
你提的问题是非常广泛的。不过,我认为这篇文章可能会帮助你[自动缩放sci-kit使用Apache Spark学习](https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-apache-spark .html) –
Hi @AlbertoBonsanto,我已经通过你给出的链接了,但是我没有找到如何用Spark来扩展我的Scikit-learn KNN。我也通过Spark官方网站上提供的Scikit-learn的第三方软件包gobe,但我不确定关于API,也没有找到适当的例子帮助。 – Nishan