2017-04-19 62 views
1

我正在从Java中的Spark中的Parquet文件中加载两个DataSet。我需要创建一个新的作为两者的组合。在常规SQL中,我会加入表格,在某些情况下应用一些条件并创建新表格。有没有什么办法可以在Spark(SQL)中实现这一点?我读过RDD可能的情况,但我并不想将数据写回磁盘。如何加入两个parquet数据集?

+0

sparkSQL中有典型的join操作,比如'join','union'。 – Pushkr

+0

你想要什么输出只是加入两个数据集或其他任何东西 –

回答

2

这几乎就像Spark SQL为parquet设计的那样是默认格式。

读拼花文件是一个没有脑子,看起来像:

val fileOne = spark.read.load(...) 
val fileTwo = spark.read.load(...) 

而且在星火SQL加盟是一个没有脑子,太(并隐藏你是否应对地板的数据集或其他任何东西)。使用join运算符。

val joined = fileOne.join(fileTwo).where(...) 

就这样,保存到数据存储,说作为一个大的(GER)实木复合地板的文件又是一个没有脑子。

joined.write.save(...) 

你完成了。恭喜!请致电Spark SQLDataset API