mapreduce

4热度

2回答

我只有一个关键字从mapper发射到reducer，并且我设置了no的reducer为10.因此，一个reducer将在该关键点上运行，还有其他剩余的9个reducer会执行哪些操作？

1热度

1回答

我有一个mapreduce函数，我想在mongoDB中写入来计算一个角色玩过多少次。相关部分从我的JSON是这样的： "playerInfo": { "Player 1": { "info":{ "characterId":17 } }, "Player 2": { "info":{ "characterId":20

0热度

1回答

的MapReduce代码找到城市

问题陈述的最高温度：查找使用MapReduce的每个城市的最高温度输入： Kolkata,56 Jaipur,45 Delhi,43 Mumbai,34 Goa,45 Kolkata,35 Jaipur,34 Delhi,32 输出： Kolkata 56 Jaipur 45 Delhi 43 Mumbai 34 我写的以下代码：地图： import java.i

0热度

1回答

如何在多次重试后调试映射作业失败的原因

我编写了mapreduce作业来扫描特定时间范围的hbase表以计算我们需要分析的某些元素。 MR作业中的映射器仍然失败，但我不知道为什么。似乎每次我运行这个工作时，都会有不同数量的映射器失败。来自Cloudera经理的YARN日志（见下文）无助于指出问题所在，尽管有人说我可能会用完内存。它似乎要重试多次，但每次失败。我需要做些什么才能使其停止失败，或者如何记录事情以帮助我更好地确定发生的事情？

0热度

1回答

导致测试用例失败的CustomWritable对象

我将Normal IntWritable更改为适当的CustomerWritable类，因为那时我的测试用例失败。我在这里做错了什么？ /* this is my customWritable */ package hadoop.mapreduce; import java.io.DataInput; import java.io.DataOutput;

1热度

1回答

在pyspark中的映射器内导入错误

我正在处理一个与networkx有关的EMR YARN群集。我想运行映射器内的networkx包内的算法之一，并收到错误说没有模块名称“装饰器”，并立即失败，与下面的错误：文件“./networkx- 1.11-py2.7.egg/networkx/utils/init .py“，第2行，在文件”./networkx-1.11-py2.7.egg/networkx/utils/decorat

1热度

2回答

如何在集群上运行spark工作远程了解如何在集群上运行spark工作

我在ec2集群上运行spark工作，我有一个定期提交作业的触发器。如果一个作业已经在群集上运行，我不想提交作业。有没有可以提供这些信息的API？

0热度

1回答

JSON映射器类中的错误

我正在读取JSON文件并从JSON输入中提取元素的MapReduce（仅限Map任务）。输入数据： {"type":"cloud_monitor","format":"default","version":"1.0","id":"71101cb85441995d11a43bb","start":"1413585245.921","cp":"254623","message":{"proto":"h

0热度

1回答

如何将rdd的列表转换为python映射？

这是家庭工作问题。我想将包含'n'个列表的rdd转换为python映射。 RDD - [[u'100=NO', u'101=OR', u'102=-0.00955461556684', u'103=0.799738137456', u'104=-0.619426440691', u'105=-0.505799761741', u'106=1.06018348173', u'107=-0.20373

0热度

2回答

在MongoDB中创建MapReduce查询

我有一个小问题。直到现在，我还没有深入Mongo数据库的东西。更像SQL的人，但现在我必须创建一个Map Reduce查询。我的数据是这样的：每个学生都有多个讲座。现在我想要一个所有讲座的清单（没有重复）和访问它的学生人数。 function() { emit(this.vorlesungen, this._id); }; function(VL, students) {