0
我们在Hortonworks上使用Kafka和Spark Streaming在本地群集设置上运行实时流应用程序。如何将本地Hadoop群集上的流数据保存到AWS S3
我们有一个需求,我们需要从Spark Streaming或Kafka推送一些事件触发数据以保存在AWS的S3文件系统上。
任何指针都将不胜感激。
我们在Hortonworks上使用Kafka和Spark Streaming在本地群集设置上运行实时流应用程序。如何将本地Hadoop群集上的流数据保存到AWS S3
我们有一个需求,我们需要从Spark Streaming或Kafka推送一些事件触发数据以保存在AWS的S3文件系统上。
任何指针都将不胜感激。
可以节省使用S3A://方案和Hadoop的API文件系统,如东西有点像
val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()
它可以是一个有点棘手设置CLASSPATH,但一切应设置在HDP为此。更确切地说,如果不是的话,我可以去支持电话:)