2015-02-06 60 views
2

我们希望将我们的Cloudera Hadoop集群中的HDFS数据备份到Amazon S3。看起来我们可以为此使用distcp,但不清楚的是数据是否通过加密传输复制到S3。使用distcp将数据从HDFS安全地传输到亚马逊S3

有什么需要配置来启用它吗?

+1

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_admin_distcp_data_cluster_migrate.html – 2015-02-07 00:30:39

+0

谢谢。我曾阅读过该页面,但似乎并没有表明distcp在Hadoop和S3之间传输数据时是否使用SSL/TLS。 – 2015-02-09 00:06:34

回答

2

我不认为S3客户端加密在Hadoop中可用。

看起来像S3 server side encryption(在S3结束时加密数据)可以从Hadoop 2.5.0配置。

使其能够在core-site.xml添加以下属性:约S3服务器端加密Hadoop-10568

<property> 
    <name>fs.s3n.server-side-encryption-algorithm</name> 
    <value> AES256 </value> 
    <description> 
    Specify a server-side encryption algorithm for S3. 
    The default is NULL, and the only other currently allowable value is AES256. 
    </description> 
</property> 

更多信息。

+0

感谢您的回复 - 我正在寻找的是如何确保数据在传输过程中进行加密。换句话说,distcp通过SSL/TLS将数据传输到Amazon S3 – 2015-02-09 00:07:42

+1

从我所看到的,默认情况下,传输中的加密工作正常。我通过在我的桶上放置一个策略来测试这一点,当securetransport = false时防止putobject。如果securetransport未启用,则distcp命令将失败,并显示403错误,所以我相信这是有效的 – nachonachoman 2015-12-04 16:59:55