根据Amazon Elastic MapReduce上使用/可用的实例计算正确的hadoop映射器和reducer的使用数量的最佳方法是什么? (使用RecommenderJob Mahout的核心 - 0.7分发)如何计算mappers/redurs的数量以最大限度地提高在Amazon云上运行的mahout RecommenderJob的性能?
1
A
回答
1
通用Hadoop的答案适用于:
- 让Hadoop的挑映射器的数量
- 设置减速等于降低插槽数量的数群集
对于EMR,查找您使用的是默认的实例类型运行减速的数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html
然后乘以您使用的工人数量。这是一个相当理想的减速器数量 - 甚至是它的一小部分。
直到你有一个特定的理由认为这些不是最优的,我会去这个。
PS不要忘记使用现场实例为您的工人节省开支和/或部署更多的工人。
广告插播:如果你有兴趣的象夫和建议,并在EMR运行,则可能应该看Myrrix。我是创始人,也是现在运行的一些Mahout代码的作者。这是一款“下一代”基于Hadoop的推荐产品,除此之外,该产品已经针对EMR进行了优化。
相关问题
- 1. 在EMR上运行mahout RecommenderJob
- 2. 如何最大限度地提高http.sys文件上传性能
- 3. 如何最大限度地提高性能?
- 4. 如何最大限度地提高服务器性能?
- 5. 如何提高算法性能的速度来计算最小移动次数?
- 6. 计算最佳包装大小(Optimal Payload)以最大限度地提高网络速度
- 7. 如何最大限度地提高CPU的功耗?
- 8. 最大限度地提高SQL Server Service Broker吞吐量
- 9. 如何提高在Haskell这个数值计算的性能?
- 10. 提高大块SumIfs的计算速度
- 11. 云高性能计算的可靠时间测量
- 12. ExtJS - 如何最大限度地减少roweditor的高度?
- 13. 如何最大限度地提高总积分?
- 14. gurobi MILP模型,以最大限度地提高NPV
- 15. 如何计算元素的最大宽度/高度?
- 16. 在不同的浏览器中最大限度地提高网站可用性
- 17. 如何最大限度地提高多种语言网站的可见度?
- 18. Obj-C,使用[button setImage:image];我如何最大限度地提高质量?
- 19. 如何提高访问谷歌云中的大量数据的速度SQL
- 20. 最大限度地提高程序响应度
- 21. 是否可以提高“最大永久磁盘数量”限制?
- 22. 最大限度地提高Google Play服务的向后兼容性
- 23. 如何使用大量数据提高Django项目的性能?
- 24. 如何最大限度地提高我的应用程序数据库的安全性?
- 25. 最小化malloc()调用的数量可以提高性能?
- 26. 计算可以在数组中的对象的最大数量
- 27. 我可以提高大量时间序列数据之间的相关性分析的计算速度吗?
- 28. 如何最大限度地提高可用性在三个独立的项目与很多共享的东西?
- 29. 如何在运行时计算屏幕高度和宽度?
- 30. 使用javascript计算div最大高度
感谢肖恩的快速回答。实际上,我试图在云上比较基于用户的和基于项目的推荐算法。如果我让hadoop决定mappers的数量,我怎么才能找出有多少人正在使用?最后是否有任何基于用户的推荐算法,我可以直接在amazon上运行,比如RecommenderJob?非常感谢 – user2141695 2013-03-07 12:30:00
在Amazon EMR上,如果您在主机上打开端口9100和9101,则可以浏览到原始Hadoop控制台。你可以查看任何你想要的任何工作,包括mappers的数量。我想你也可以从日志中得到这个;启用EMR中的“启用调试日志记录”步骤,它将通过控制台公开大量日志。 Hadoop没有基于用户相似度的推荐器,没有。 – 2013-03-07 13:37:05
RecommenderJob在数据集上使用的默认培训/测试百分比是多少?我该如何改变它? – user2141695 2013-03-17 19:27:04