如果我想在SparkR中使用像MXNet这样的标准R包,可以吗?在Spark分布式环境中可以使用标准CRAN包,而不考虑本地VS Spark数据帧。在R和Spark中处理大型数据集的策略是使用Spark数据框,缩小Dataframe并将其转换为本地数据框以使用标准CRAN包?有没有我不知道的另一种策略?在SparkR中使用CRAN包
感谢
如果我想在SparkR中使用像MXNet这样的标准R包,可以吗?在Spark分布式环境中可以使用标准CRAN包,而不考虑本地VS Spark数据帧。在R和Spark中处理大型数据集的策略是使用Spark数据框,缩小Dataframe并将其转换为本地数据框以使用标准CRAN包?有没有我不知道的另一种策略?在SparkR中使用CRAN包
感谢
可以在标准CRAN包星火分布式环境中使用而没有考虑当地VS火花数据帧。
不,他们不能。
与R中大型数据集和Spark使用星火据帧,削减数据帧,然后将其转换为本地
data.frame
战略。
不幸的是,大多数时候这就是你所做的。
有没有我不知道的另一种策略?在火花2.0
dapply
和gapply
功能可以应用任意的R代码里面给分区或组。
谢谢你的答案。我会研究一下应用程序和gapply函数。 – user3220598