2017-01-30 102 views
0

目前我们在pig中有一个实现,用于从记录中生成序列文件,其中记录的某些属性被视为序列文件的关键字,并且与该关键字相对应的所有记录都存储在一个序列文件中。当我们正在发生火花时,我想知道这怎么能在火花中完成?我可以在Spark中创建序列文件吗?

回答

0

saveAsSequnceFile将数据保存为序列文件。

val a=sc.parallelize(List(1,2,3,4,5)).map(x=>(x,x*10)).saveAsSequenceFile("/saw1") 

$ hadoop fs -cat /sqes/part-00000 
SEQ org.apache.hadoop.io.IntWritable org.apache.hadoop.io.IntWritableZ  tTrh7��g�,�� 
2[[email protected] ~]$ 

阅读sequencefile使用sc.sequenceFile

val sw=sc.sequenceFile("/saw1/part-00000", classOf[IntWritable],classOf[IntWritable]).collect 
相关问题