2016-11-30 67 views
3

如果我想在SparkR中使用像MXNet这样的标准R包,可以吗?在Spark分布式环境中可以使用标准CRAN包,而不考虑本地VS Spark数据帧。在R和Spark中处理大型数据集的策略是使用Spark数据框,缩小Dataframe并将其转换为本地数据框以使用标准CRAN包?有没有我不知道的另一种策略?在SparkR中使用CRAN包

感谢

回答

2

可以在标准CRAN包星火分布式环境中使用而没有考虑当地VS火花数据帧。

不,他们不能。

与R中大型数据集和Spark使用星火据帧,削减数据帧,然后将其转换为本地data.frame战略。

不幸的是,大多数时候这就是你所做的。

有没有我不知道的另一种策略?在火花2.0

dapplygapply功能可以应用任意的R代码里面给分区或组。

+0

谢谢你的答案。我会研究一下应用程序和gapply函数。 – user3220598

0

对于某些操作,您可以使用对本地R数据框和Spark数据框使用统一语法的程序包。例如,如果您使用Sparklyr,dplyr可以将您的标准数据纠缠操作返回到Spark群集。只有在您需要本地操作时才会获取您的数据。