2017-10-18 95 views
2

使用SparkR,我想知道是否有可能一个Spark数据帧转换成H2O框架?转换SparkR数据帧,以H2O框架

我见过将R data.frames转换为h2o帧的例子,但遗憾的是,这不是一个可行的选项(数据大小)。

我知道这是可能使用sparklyrrsparkling创建H2O框架,但我不使用HIVE,或者Hadoop的,sparklyrrsparkling

相反,我的目标是从这个sdf转换:

set.seed(123) 
df<- data.frame(ColA=rep(c("dog", "cat", "fish", "shark"), 4), ColB=rnorm(16), ColC=rep(seq(1:8),2)) 
sdf<- SparkR::createDataFrame(df) 

成这样:

as.h2o(sdf, destination_frame = "hsdf") # fails, came from Spark (SparkR) 
as.h2o(df, destination_frame = "hdf") # succeeds, but this is a regular R data.frame 

希望有人想出一个办法做到这一点使用什么SparkR可以提供。我认为这将是一个巨大的福音于R用户。

回答

0

没有为在任一H2OSparkR包H 2 O之间转换和Spark帧本身不支持。你将不得不使用rsparkling(这取决于sparklyr)或从星火数据框中做一个转换 - > [R data.frame - > H2O框架。

你提到Hadoop和HIVE ...只是为了澄清这两种方法都不是使用rsparkling::as_h2o_frame()要求。