2013-03-21 54 views
0

Hello我试图在git存储库上运行map reduce作业。我想要使​​用地图作业首先同时将所有存储库克隆为hdfs,然后再对这些文件进行缩减作业。我遇到了一个问题,我不知道如何编写库文件到hdfs。我见过写单个文件的例子,但那些文件在映射器之外,只写单个文件。 jgit api只公开从文件继承的filerepository结构,但hdfs使用写入为数据输出流的路径。有没有一种很好的方法可以在两者之间进行转换,或者有任何类似的例子吗?Hadoop和jgit在java.io.file和dataoutputstream之间进行转换

感谢

回答

1

输入数据到Hadoop的映射器必须在HDFS,而不是本地计算机或比HDFS任何其他的。 Map-Reduce作业不适用于将数据从一个地方迁移到另一个地方。它们用于处理HDFS上存在的大量数据。我确信你的存储库数据不是HDFS,如果是的话你不需要在第一时间执行任何操作。所以请记住,map-reduce作业用于处理HDFS(Hadoop文件系统)上已经存在的大量数据。

相关问题