如何计算mappers/redurs的数量以最大限度地提高在Amazon云上运行的mahout RecommenderJob的性能？

根据Amazon Elastic MapReduce上使用/可用的实例计算正确的hadoop映射器和reducer的使用数量的最佳方法是什么？（使用RecommenderJob Mahout的核心 - 0.7分发）如何计算mappers/redurs的数量以最大限度地提高在Amazon云上运行的mahout RecommenderJob的性能？

来源

2013-03-06 user2141695

通用Hadoop的答案适用于：

让Hadoop的挑映射器的数量
设置减速等于降低插槽数量的数群集

对于EMR，查找您使用的是默认的实例类型运行减速的数量：http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html

然后乘以您使用的工人数量。这是一个相当理想的减速器数量 - 甚至是它的一小部分。

直到你有一个特定的理由认为这些不是最优的，我会去这个。

PS不要忘记使用现场实例为您的工人节省开支和/或部署更多的工人。

广告插播：如果你有兴趣的象夫和建议，并在EMR运行，则可能应该看Myrrix。我是创始人，也是现在运行的一些Mahout代码的作者。这是一款“下一代”基于Hadoop的推荐产品，除此之外，该产品已经针对EMR进行了优化。

来源

2013-03-06 22:27:08

感谢肖恩的快速回答。实际上，我试图在云上比较基于用户的和基于项目的推荐算法。如果我让hadoop决定mappers的数量，我怎么才能找出有多少人正在使用？最后是否有任何基于用户的推荐算法，我可以直接在amazon上运行，比如RecommenderJob？非常感谢 – user2141695 2013-03-07 12:30:00

在Amazon EMR上，如果您在主机上打开端口9100和9101，则可以浏览到原始Hadoop控制台。你可以查看任何你想要的任何工作，包括mappers的数量。我想你也可以从日志中得到这个;启用EMR中的“启用调试日志记录”步骤，它将通过控制台公开大量日志。 Hadoop没有基于用户相似度的推荐器，没有。 – 2013-03-07 13:37:05

RecommenderJob在数据集上使用的默认培训/测试百分比是多少？我该如何改变它？ – user2141695 2013-03-17 19:27:04

如何计算mappers/redurs的数量以最大限度地提高在Amazon云上运行的mahout RecommenderJob的性能？

回答

相关问题