mapreduce

    4热度

    2回答

    我只有一个关键字从mapper发射到reducer,并且我设置了no的reducer为10.因此,一个reducer将在该关键点上运行,还有其他剩余的9个reducer会执行哪些操作?

    1热度

    1回答

    我有一个mapreduce函数,我想在mongoDB中写入来计算一个角色玩过多少次。相关部分从我的JSON是这样的: "playerInfo": { "Player 1": { "info":{ "characterId":17 } }, "Player 2": { "info":{ "characterId":20

    0热度

    1回答

    问题陈述的最高温度:查找使用MapReduce的每个城市的最高温度 输入: Kolkata,56 Jaipur,45 Delhi,43 Mumbai,34 Goa,45 Kolkata,35 Jaipur,34 Delhi,32 输出: Kolkata 56 Jaipur 45 Delhi 43 Mumbai 34 我写的以下代码: 地图: import java.i

    0热度

    1回答

    我编写了mapreduce作业来扫描特定时间范围的hbase表以计算我们需要分析的某些元素。 MR作业中的映射器仍然失败,但我不知道为什么。似乎每次我运行这个工作时,都会有不同数量的映射器失败。来自Cloudera经理的YARN日志(见下文)无助于指出问题所在,尽管有人说我可能会用完内存。 它似乎要重试多次,但每次失败。我需要做些什么才能使其停止失败,或者如何记录事情以帮助我更好地确定发生的事情?

    0热度

    1回答

    我将Normal IntWritable更改为适当的CustomerWritable类,因为那时我的测试用例失败。我在这里做错了什么? /* this is my customWritable */ package hadoop.mapreduce; import java.io.DataInput; import java.io.DataOutput;

    1热度

    1回答

    我正在处理一个与networkx有关的EMR YARN群集。 我想运行映射器内的networkx包内的算法之一,并收到错误说没有模块名称“装饰器”,并立即失败,与下面的错误: 文件“./networkx- 1.11-py2.7.egg/networkx/utils/init .py“,第2行,在 文件”./networkx-1.11-py2.7.egg/networkx/utils/decorat

    1热度

    2回答

    我在ec2集群上运行spark工作,我有一个定期提交作业的触发器。如果一个作业已经在群集上运行,我不想提交作业。有没有可以提供这些信息的API?

    0热度

    1回答

    我正在读取JSON文件并从JSON输入中提取元素的MapReduce(仅限Map任务)。输入数据: {"type":"cloud_monitor","format":"default","version":"1.0","id":"71101cb85441995d11a43bb","start":"1413585245.921","cp":"254623","message":{"proto":"h

    0热度

    1回答

    这是家庭工作问题。我想将包含'n'个列表的rdd转换为python映射。 RDD - [[u'100=NO', u'101=OR', u'102=-0.00955461556684', u'103=0.799738137456', u'104=-0.619426440691', u'105=-0.505799761741', u'106=1.06018348173', u'107=-0.20373

    0热度

    2回答

    我有一个小问题。直到现在,我还没有深入Mongo数据库的东西。更像SQL的人,但现在我必须创建一个Map Reduce查询。 我的数据是这样的: 每个学生都有多个讲座。现在我想要一个所有讲座的清单(没有重复)和访问它的学生人数。 function() { emit(this.vorlesungen, this._id); }; function(VL, students) {