我想构建一个hadoop应用程序,它可以从一个文件读取单词并在另一个文件中搜索。Hadoop从另一个文件中的一个文件搜索单词
如果存在的话 - 它写入到一个输出文件 如果单词不存在 - 它有可能写入另一个输出文件
我试图在Hadoop中的几个例子。我有两个问题
两个文件大约每个200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他的方法来做到这一点?
如何将数据写入不同的文件,因为hadoop的reduce阶段的输出只写入一个文件。是否有可能有一个用于缩小阶段的过滤器来将数据写入不同的输出文件?
谢谢。
嗨,我有implemet几乎为你做同样的事情,但我Hadoop的初学者,真的不设法使这:/请请你能看看我的问题,并给我一些反馈,我真的很挣扎,不能得到任何帮助:/ http://stackoverflow.com/questions/2986271/need-help-implementing-this-algorithm -with-map-hadoop-mapreduce – Julia 2010-06-12 16:26:52