mapreduce

    0热度

    2回答

    我刚刚在学习hadoop最近(我用hadoop2.7.3 & java 1.7.0.89)。我写了一些代码来分析不同网站上的不同电视广播&评论。我重写了filesinputformat类。但是当我在eclipse上运行我的代码时,有很多异常。我尝试在eclipse上调试。只要找到发现映射器或减速有一些问题。但我不知道哪里出了问题.. 这里是最新的例子,辅助数据是网站的昵称 truelove 3 3

    2热度

    1回答

    我现有的项目使用Hadoop map-reduce生成具有XML格式的自定义键和值的序列文件。 通过从输入源一次读取一行来生成XML值,并且实现RecordReader以从纯文本返回XML格式的下一个值。 例如输入源文件有3行(第一行是头,并具有实际的数据休息行) id|name|value 1|Vijay|1000 2|Gaurav|2000 3|Ashok|3000 发布地图的方法的

    1热度

    1回答

    我使用的Apache的Hadoop的二进制运行Hadoop和我一直在使用下面的命令启动DFS,纱和先生守护程序: start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver 在这之后一切正常,即,我能看到HDFS UI ,资源amanger UI,作业历史UI等 这里是JPS命令输出: sh-3.2# jps

    0热度

    1回答

    我想在伪代码中编写一个MapReduce任务,该任务返回按降序排序的项目。例如:对于单词计数的任务,而不是获取: apple 1 banana 3 mango 2 我所要的输出是: banana 3 mango 2 apple 1 的怎么办呢任何想法?我知道如何按照升序排列(替换mapper作业中的键和值),但不是按降序排列。

    0热度

    1回答

    以下是数据集我在名为一个蜂巢表推temp_stat: COUNTRY CITY TEMP ---------- -------------------- ----- US Arizona 51.7 US California 56.7 US Bullhead City 51.1 India Jaisalmer 42.4 Libya Aziziya

    0热度

    1回答

    我基于Sqoop创建导入工具,我的shell脚本的样子: while <cond> ; do sqoop import <parameters> & done 第一invokation工作正常,但我得到以下错误的休息: 所致:java.sql.SQLException中:失败当我通过一个手动启动一个每次迭代转换为内部 表示 ,他们工作得很好,但没有如上所述。 我调查后发现了什么,是第一sq

    0热度

    1回答

    我是Apache-Spark的新手, 我要求从Oracle数据库读取数百万(〜500万)条记录,然后对这些记录进行一些处理,并将处理过的记录写入文件。 目前,这在Java中完成,而在此过程 - 在DB中的记录被归类为不同的子集,基于一些数据标准 - 在Java过程中,4个线程并行 运行 - 每个线程读取一组子记录,处理并将处理后的记录写入新文件 - 最后它将所有这些文件合并到一个文件中。 仍然需要

    0热度

    1回答

    目的是通过输入值(它是一个json文件)对键值进行排序。我有4种方法,两对映射器和减速器。 输入类似于 { id: 1, user: { friends_count: 1 } } 输出变换器和减速的第一阶段是一样的东西 A 1 B 2 C 3 D 4 我要的是 1 A 2 B 3 C 4 D 在第一阶段排序关键工作正常,但在第二阶段

    0热度

    3回答

    我的数据框看起来像下面 ID,FirstName,LastName 1,Navee,Srikanth 2,,Srikanth 3,Naveen, 现在我的问题陈述我不得不删除的行号2,因为名字为空。 我使用下面pyspark脚本 join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show() 我得到错误的 File "

    1热度

    1回答

    我有MyClass.java来定义map-reduce任务。 MyClass.java包含mapper,reducer和main的定义。它工作正常,但如果我尝试使用/添加外部jar,我有消息ClassNotFoundException。 编译我用命令: javac -classpath hadoop_library_path:my_library_path -sourcepath code_pat