mapreduce

    2热度

    3回答

    我使用亚马逊网络服务做在MapReduce的一个项目劈裂字符串时,我有这样的错误: FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.StackOverflowError at java.util.regex.Pattern$GroupHead.match(Pattern.java:46

    0热度

    2回答

    这是我第一次用python学习Hadoop MapReduce。 我写了一个map.py来获取两个文件的文件名,以了解如何连接两个文件。 这里有两个CSV文件: worksheet1.csv sno,name 1,name1 2,name2 3,name3 4,name4 worksheet2.csv sno,courseno,grade 1,1,80 1,2,90 2,1,82

    0热度

    1回答

    我有问题语句,其中我需要在“config.first.second”子级别的所有字段名称,其中include字段至少为一次。 这是我的mongo集合对象。 [ { "_id" : ObjectId("560e97f4a78eb445cd2d75e5"), "config" : { "first" : { "second" : {

    2热度

    1回答

    我想实现Mapside加入使用CompositeTextInoutFormat。不过,我在Map reduce工作中遇到了以下错误,我无法解决这个问题。 1.在下面的代码中,我在使用Compose方法时出现错误,并在设置inputformat Class时出现错误。错误如下所示。 在 类型CompositeInputFormat方法撰写(字符串,类,路径...)不适用于参数 (字符串,类,路径[]

    2热度

    2回答

    我已经在Python中编写了一个简单的MapReduce示例。如果输入是一个文件,例如text文件,为了运行代码,我们只需使用以下模式:cat <data> | map | sort | reduce,例如在我的情况下,它是:cat data | ./mapper.py | sort | ./reducer.py并且所有的东西都是正确的。 但我更改了我的映射器和缩减器以读取directory中包含

    0热度

    1回答

    我已经使用Hadoop中的计数器来统计不同类型的LIC客户。下面是我的代码 - 地图 import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.IntWritable; import o

    6热度

    1回答

    我的应用程序将多个文档类型存储在同一个存储桶中。我知道这不是一个好习惯,但是我可以在我的服务器上创建多少个桶,并且目前还没有办法绕过它。这些文档的前缀是它们的类型,所以当我得到一个文档时,我只需要连接前缀和id来获得密钥,我可以做一个关键的查找。 我需要创建一个报告,其中来自多个文档类型的信息。 我的地图看起来是这样的: function(doc, meta) { var getSte

    0热度

    1回答

    我有许多json文档存储在一个Cloudant数据库中。文档结构: { "_id": "00229e31d5751d337abf409a4bd75492", "_rev": "1-d95d7ad32264d233453a0436b1557e7d", "timestamp": "2017-07-04T21:28:46.886Z", "APIresponse":

    0热度

    1回答

    我是Map Reduce的新手,并试图解决一些问题,以便更好地通过实施学习。 背景: 我从movielens.com数据集,其中有各种电影评级。我正在尝试计算电影的最大评分,并按照评分计数以降序对最终输出进行排序(输出的默认排序是通过电影ID进行的)。我想是这样的: movieId:RATING_COUNT(排序在RATING_COUNT降序) 我搜索网页和发现,我可以通过自定义按键实现这一目标。

    0热度

    1回答

    MR作业使用128个映射器启动,但只有7个并行运行。我如何增加并行运行地图任务的数量? 感谢