我很想找几个主题,谢谢。Hadoop启动器项目建议
2
A
回答
1
MergeSort是一个很棒的/容易的开始。你也可以去generating word counts for all words in a file。一个很好的数据来源是公共领域图书的Project Gutenberg图书馆(你可以将它们中的一些连在一起)。
如果你想要更先进的东西,但与字数相同,你可以写一个非常简单的分布式拼写检查器。 Peter Norvig作为用Python编写的拼写检查器的一个棒极了simple demonstration。一个好的练习就是扩展这个算法,以分布式的方式在文件上运行。
1
你有几个项目here
有小的Hadoop项目几个漂亮和有趣的例子。一切都被描述得很好,另外你可以找到源代码和所有需要的理论。
相关问题
- 1. opensource项目+关于启动+ rails3的建议
- 2. GIS项目建议
- 3. ASP.NET MVC的项目建议
- 4. 启动时Hadoop项目需要哪些JAR?
- 5. 获取构建春季启动项目
- 6. OpenGL启动项目
- 7. 启动node.js项目
- 8. MVC启动项目
- 9. Hadoop Datanode未启动
- 10. 模拟器不启动我的项目
- 11. Selenium服务器未启动easyb项目
- 12. UI加速器启动项目失败
- 13. 启动MVC项目时,未创建测试项目
- 14. 重建我的项目的建议
- 15. 启动会议
- 16. Django启动项目PYTHONPATH
- 17. Node.js pm2多项目启动?
- 18. POST项目春季启动
- 19. Config弹簧启动项目
- 20. 错误启动scrapy项目
- 21. Spring重新启动项目
- 22. 无法启动Django项目
- 23. 用Eclipse启动JSF项目
- 24. 如何启动angular4项目?
- 25. 在CodePlex中启动项目
- 26. wmic删除启动项目
- 27. hadoop namenode,datanode,secondarynamenode未启动
- 28. Hadoop。重新启动地图
- 29. Hadoop - namenode无法启动
- 30. hadoop无法启动start-dfs.sh
那么,如果没有更好地理解课程的水平/期望,我会犹豫评估任何想法。但是我认为一个简单,容易完成的最终项目应该是拼写检查器的分布式版本。其一,如果在HDFS上进行排序,则可以使用更大的训练集;其次,您可以以更快的速度处理文档,因为您可以独立考虑每个单词(针对此初始算法)。最后,它绝对是在字数或合并排序方面的一个步骤,它既完成了它,又完成了它的实现。 – smessing 2012-03-10 22:51:55
非常感谢所有的帮助! :) – 2012-03-10 22:59:07
没问题!还注意到底部列出了Norvig算法的Java实现,您可以看一看,可能会帮助您开始。 – smessing 2012-03-10 22:59:53