Hadoop启动器项目建议

2012-03-10 Led Zeppelin

MergeSort是一个很棒的/容易的开始。你也可以去generating word counts for all words in a file。一个很好的数据来源是公共领域图书的Project Gutenberg图书馆（你可以将它们中的一些连在一起）。

如果你想要更先进的东西，但与字数相同，你可以写一个非常简单的分布式拼写检查器。 Peter Norvig作为用Python编写的拼写检查器的一个棒极了simple demonstration。一个好的练习就是扩展这个算法，以分布式的方式在文件上运行。

来源

2012-03-10 22:13:35 smessing

那么，如果没有更好地理解课程的水平/期望，我会犹豫评估任何想法。但是我认为一个简单，容易完成的最终项目应该是拼写检查器的分布式版本。其一，如果在HDFS上进行排序，则可以使用更大的训练集;其次，您可以以更快的速度处理文档，因为您可以独立考虑每个单词（针对此初始算法）。最后，它绝对是在字数或合并排序方面的一个步骤，它既完成了它，又完成了它的实现。 – smessing 2012-03-10 22:51:55

非常感谢所有的帮助！ :) – 2012-03-10 22:59:07

没问题！还注意到底部列出了Norvig算法的Java实现，您可以看一看，可能会帮助您开始。 – smessing 2012-03-10 22:59:53

你有几个项目here

有小的Hadoop项目几个漂亮和有趣的例子。一切都被描述得很好，另外你可以找到源代码和所有需要的理论。

来源

2012-03-11 01:37:14 wonsky

Hadoop启动器项目建议

回答

相关问题