Hadoop和jgit在java.io.file和dataoutputstream之间进行转换

Hello我试图在git存储库上运行map reduce作业。我想要使用地图作业首先同时将所有存储库克隆为hdfs，然后再对这些文件进行缩减作业。我遇到了一个问题，我不知道如何编写库文件到hdfs。我见过写单个文件的例子，但那些文件在映射器之外，只写单个文件。 jgit api只公开从文件继承的filerepository结构，但hdfs使用写入为数据输出流的路径。有没有一种很好的方法可以在两者之间进行转换，或者有任何类似的例子吗？Hadoop和jgit在java.io.file和dataoutputstream之间进行转换

感谢

来源

2013-03-21 user1573235

输入数据到Hadoop的映射器必须在HDFS，而不是本地计算机或比HDFS任何其他的。 Map-Reduce作业不适用于将数据从一个地方迁移到另一个地方。它们用于处理HDFS上存在的大量数据。我确信你的存储库数据不是HDFS，如果是的话你不需要在第一时间执行任何操作。所以请记住，map-reduce作业用于处理HDFS（Hadoop文件系统）上已经存在的大量数据。

来源

2013-03-21 17:09:55

Hadoop和jgit在java.io.file和dataoutputstream之间进行转换

回答

相关问题