Apache Spark：多机器学习的并行化算法

-1

有没有一种方法可以在Spark中并行化多个ML算法。我的用例是这样的： A）并行运行多机器学习算法（朴素贝叶斯，人工神经网络，随机森林等）。 1）使用10倍交叉验证验证每个算法B）在第二层机器学习算法中提供步骤A）的输出。我的问题是：我们可以在步骤A中并行运行多机器学习算法吗？我们可以并行进行交叉验证吗？比如，并行运行10次朴素贝叶斯训练？Apache Spark：多机器学习的并行化算法

我无法找到任何方法来并行运行不同的算法。而且似乎交叉验证也不能同时完成。我很欣赏任何有关并行化这个用例的建议。

来源

2017-09-03 Prem Timsina

我通常发现人们对一个单词的分布感到困惑。任何编程语言或ML算法都不分发。它取决于执行引擎的集合（数据结构）。例如Scala没有分发，或者更具体地说Scala的集合没有分发。像Spark这样的大数据工具使分布式集合分布在自己的数据结构中，是的，我正在谈论RDD，Dataframes，LableledPoints，Vectors。这些结构使计算并行，这又取决于分区。

要回答你的question-是的，我们能因为，任何机器学习会囤数据在某个N大小集群中的节点间分布在并行模式下运行的机器学习。

来源

2017-09-04 08:49:04

Apache Spark：多机器学习的并行化算法

回答

相关问题