2017-09-03 132 views
-1

有没有一种方法可以在Spark中并行化多个ML算法。我的用例是这样的: A)并行运行多机器学习算法(朴素贝叶斯,人工神经网络,随机森林等)。 1)使用10倍交叉验证验证每个算法B)在第二层机器学习算法中提供步骤A)的输出。 我的问题是: 我们可以在步骤A中并行运行多机器学习算法吗? 我们可以并行进行交叉验证吗?比如,并行运行10次朴素贝叶斯训练?Apache Spark:多机器学习的并行化算法

我无法找到任何方法来并行运行不同的算法。而且似乎交叉验证也不能同时完成。 我很欣赏任何有关并行化这个用例的建议。

回答

0

我通常发现人们对一个单词的分布感到困惑。任何编程语言或ML算法都不分发。它取决于执行引擎的集合(数据结构)。例如Scala没有分发,或者更具体地说Scala的集合没有分发。像Spark这样的大数据工具使分布式集合分布在自己的数据结构中,是的,我正在谈论RDD,Dataframes,LableledPoints,Vectors。这些结构使计算并行,这又取决于分区。

要回答你的question-是的,我们能因为,任何机器学习会囤数据在某个N大小集群中的节点间分布在并行模式下运行的机器学习。