如何将本地Hadoop群集上的流数据保存到AWS S3

amazon-web-services
amazon-s3
apache-kafka
spark-streaming
hortonworks-data-platform

2017-02-13 65 views 0 likes

我们在Hortonworks上使用Kafka和Spark Streaming在本地群集设置上运行实时流应用程序。如何将本地Hadoop群集上的流数据保存到AWS S3

我们有一个需求，我们需要从Spark Streaming或Kafka推送一些事件触发数据以保存在AWS的S3文件系统上。

任何指针都将不胜感激。

来源

2017-02-13 nilesh1212

回答

可以节省使用S3A：//方案和Hadoop的API文件系统，如东西有点像

val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()

它可以是一个有点棘手设置CLASSPATH，但一切应设置在HDP为此。更确切地说，如果不是的话，我可以去支持电话:)

来源

2017-02-13 18:21:12

如何将本地Hadoop群集上的流数据保存到AWS S3

回答

相关问题