EMR和S3源火花流

2017-04-27 103 views 0 likes

我试图打印一个流使用s3作为源使用电子病历中的Zeppelin笔记本。EMR和S3源火花流

%pyspark 
from pyspark.streaming import StreamingContext 
from pyspark.sql import Row, SparkSession 
ssc = StreamingContext(sc, 45) 
streams=ssc.textFileStream('s3://realtime-nyc-bike/') 
streams.pprint()

但是，没有任何东西正在打印。 Bucket名称是正确的。可能是什么问题？

来源

2017-04-27 Varun Mallya

回答

从星火流媒体文件：

星火流只有建立在启动时将进行计算，并没有真正的处理已经没有开始。在所有转换完成后开始处理，最后致电

ssc.start()    // Start the computation 
ssc.awaitTermination() // Wait for the computation to terminate

来源

2017-06-14 19:02:15

相关问题

1. 带有火花的AWS DataPipeline EMR集群
2. 在EMR上运行python火花
3. 使用火花流
4. 火花流聚合
5. 蟒蛇火花流输出
6. 学习火花流媒体
7. 火花流不工作
8. 火花流HBase的错误
9. 卡夫卡+火花流：kafka.common.OffsetOutOfRangeException
10. 火花流+卡桑德拉
11. 什么是在火花流
12. jsontostructs在火花结构流
13. 星火与EMR
14. 的火花运行的总S3数据
15. 试图了解火花流流
16. 火花提交失败，火花流workdcount Python代码
17. 火花2到火花1.6
18. EMR-5.4.0（火花执行人存储器分配问题）
19. 分配纱构造的火花命令EMR
20. 使用数据管道进行火花作业的EMR活动
21. 定制log4j类不工作在火花2.0 EMR
22. 火花，有位于AWS S3上CSV和JSON
23. 使用火花结构化流式读取s3中的avro文件
24. 卡夫卡火花流多个聚合
25. 卡夫卡火花流媒体整合
26. 在java中使用ConstantInputDStream的火花流
27. 动态更改文本流火花flex
28. Drools的火花的流文件
29. 火花流上下文挂在停止
30. 火花流作业性能改进