2017-03-13 63 views
4

在给定的时间,我的应用程序中有用户文件系统(apache CMIS)。因为它越来越大,我怀疑转移到hadoop(HDFS),因为我们还需要运行一些统计数据。 问题: 当前文件系统提供文件的版本控制。 当我读到hadoop-HDFS和文件版本控制时,我发现大部分时间我都必须自己编写这个(版本控制)层。 是否已有可用于管理HDFS中文件版本的东西,还是我真的必须亲自编写它(不想重新发明热水,但也找不到合适的解决方案)。Hadoop(HDFS) - 文件版本

回答

有关详情:见下文

的Hadoop(HDFS)的答案(S)注释不支持的文件版本。将hadoop与(亚马逊)S3结合使用时,您可以获得此功能: Hadoop将使用S3作为文件系统(没有chunck,但恢复将由S3提供)。该解决方案随S3提供的文件版本一起提供。 Hadoop仍将使用YARN进行分布式处理。

回答

1

HDFS无法进行版本控制。
取而代之,您可以使用Amazon S3,它提供了Versioning,也是compatible与Hadoop。

+0

“也与Hadoop兼容”。 Hadoop可以使用S3作为文件系统吗?所以它不是真正的版本控制。 –

+0

@VandeperreMaarten兼容我的意思是Hadoop可以读写S3。 Hadoop可以使用S3作为FS,因为它不会在S3上强制实施其本身的HDFS功能,所以它不会影响S3的版本控制功能。 S3提供了真正的版本控制,与手动调用或预定的HDFS快照 – franklinsijo

+0

不同,但我无法使用此版本控制我的文件版本,对不对?正如hadoop将文件存储在chunck中一样...所以在S3中,我将版本化chuncks,而不是版本化文件。然后,我将不得不寻求在hadoop之上进行一些版本控制。 –

1

HDFS支持快照。我认为这与HDFS的“版本控制”非常接近。