2012-03-10 38 views

回答

1

MergeSort是一个很棒的/容易的开始。你也可以去generating word counts for all words in a file。一个很好的数据来源是公共领域图书的Project Gutenberg图书馆(你可以将它们中的一些连在一起)。

如果你想要更先进的东西,但与字数相同,你可以写一个非常简单的分布式拼写检查器。 Peter Norvig作为用Python编写的拼写检查器的一个棒极了simple demonstration。一个好的练习就是扩展这个算法,以分布式的方式在文件上运行。

+0

那么,如果没有更好地理解课程的水平/期望,我会犹豫评估任何想法。但是我认为一个简单,容易完成的最终项目应该是拼写检查器的分布式版本。其一,如果在HDFS上进行排序,则可以使用更大的训练集;其次,您可以以更快的速度处理文档,因为您可以独立考虑每个单词(针对此初始算法)。最后,它绝对是在字数或合并排序方面的一个步骤,它既完成了它,又完成了它的实现。 – smessing 2012-03-10 22:51:55

+0

非常感谢所有的帮助! :) – 2012-03-10 22:59:07

+0

没问题!还注意到底部列出了Norvig算法的Java实现,您可以看一看,可能会帮助您开始。 – smessing 2012-03-10 22:59:53

1

你有几个项目here

有小的Hadoop项目几个漂亮和有趣的例子。一切都被描述得很好,另外你可以找到源代码和所有需要的理论。