2017-04-06 29 views
0

我想写一个spark应用程序,其中我从多个hive表中读取并写入多个hive表。然而,这是一个怪癖。S3和火花。 S3上的多个Hive目标。对某些人使用s3:sse,对某些配置单元表不要使用s3:sse

所有的配置单元表都是外部配置单元表,数据位于S3上。

一些s3桶在写入时需要s3:sse加密,而有些桶不需要。

从我的理解,我只能在全局级别设置属性fs.s3a.server-side-encryption-algorithm。

我该如何解决这个问题。我很确定这是一个常见的用例。

我想我问的是以下问题。

认为我正在从配置单元表读取数据并写入Spark应用程序中的配置单元表。 认为两个配置单元表在S3上都是外部数据。然而,该表从未加密的存储区读取并写入需要加密的存储区。

回答

0

Hadoop 2.8.0让你添加per-bucket configurations,它可以让你做你想要的;当您升级Spark以使用2.8.0 JAR时,您可以使用Spark中的此功能。