2013-03-06 44 views

回答

1

通用Hadoop的答案适用于:

  • 让Hadoop的挑映射器的数量
  • 设置减速等于降低插槽数量的数群集

对于EMR,查找您使用的是默认的实例类型运行减速的数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html

然后乘以您使用的工人数量。这是一个相当理想的减速器数量 - 甚至是它的一小部分。

直到你有一个特定的理由认为这些不是最优的,我会去这个。

PS不要忘记使用现场实例为您的工人节省开支和/或部署更多的工人。

广告插播:如果你有兴趣的象夫和建议,并在EMR运行,则可能应该看Myrrix。我是创始人,也是现在运行的一些Mahout代码的作者。这是一款“下一代”基于Hadoop的推荐产品,除此之外,该产品已经针对EMR进行了优化。

+0

感谢肖恩的快速回答。实际上,我试图在云上比较基于用户的和基于项目的推荐算法。如果我让hadoop决定mappers的数量,我怎么才能找出有多少人正在使用?最后是否有任何基于用户的推荐算法,我可以直接在amazon上运行,比如RecommenderJob?非常感谢 – user2141695 2013-03-07 12:30:00

+0

在Amazon EMR上,如果您在主机上打开端口9100和9101,则可以浏览到原始Hadoop控制台。你可以查看任何你想要的任何工作,包括mappers的数量。我想你也可以从日志中得到这个;启用EMR中的“启用调试日志记录”步骤,它将通过控制台公开大量日志。 Hadoop没有基于用户相似度的推荐器,没有。 – 2013-03-07 13:37:05

+0

RecommenderJob在数据集上使用的默认培训/测试百分比是多少?我该如何改变它? – user2141695 2013-03-17 19:27:04

相关问题