2017-04-27 103 views
0

我试图打印一个流使用s3作为源使用电子病历中的Zeppelin笔记本。EMR和S3源火花流

%pyspark 
from pyspark.streaming import StreamingContext 
from pyspark.sql import Row, SparkSession 
ssc = StreamingContext(sc, 45) 
streams=ssc.textFileStream('s3://realtime-nyc-bike/') 
streams.pprint() 

但是,没有任何东西正在打印。 Bucket名称是正确的。可能是什么问题?

回答

0

从星火流媒体文件:

星火流只有建立在启动时将进行计算,并没有真正的处理已经没有开始。在所有转换完成后开始处理,最后致电

ssc.start()    // Start the computation 
ssc.awaitTermination() // Wait for the computation to terminate