mapreduce

0热度

2回答

MapReduce with rewrited fileInputFormat无法输出结果

我刚刚在学习hadoop最近（我用hadoop2.7.3 & java 1.7.0.89）。我写了一些代码来分析不同网站上的不同电视广播&评论。我重写了filesinputformat类。但是当我在eclipse上运行我的代码时，有很多异常。我尝试在eclipse上调试。只要找到发现映射器或减速有一些问题。但我不知道哪里出了问题.. 这里是最新的例子，辅助数据是网站的昵称 truelove 3 3

2热度

1回答

将纯文本文件转换为Spark中的Hadoop序列文件

1热度

1回答

为什么JPS不显示进程正在运行？

我使用的Apache的Hadoop的二进制运行Hadoop和我一直在使用下面的命令启动DFS，纱和先生守护程序： start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver 在这之后一切正常，即，我能看到HDFS UI ，资源amanger UI，作业历史UI等这里是JPS命令输出： sh-3.2# jps

0热度

1回答

MapReduce按价值降序排列

我想在伪代码中编写一个MapReduce任务，该任务返回按降序排序的项目。例如：对于单词计数的任务，而不是获取： apple 1 banana 3 mango 2 我所要的输出是： banana 3 mango 2 apple 1 的怎么办呢任何想法？我知道如何按照升序排列（替换mapper作业中的键和值），但不是按降序排列。

0热度

1回答

表定义问题阿帕奇HIVE

以下是数据集我在名为一个蜂巢表推temp_stat： COUNTRY CITY TEMP ---------- -------------------- ----- US Arizona 51.7 US California 56.7 US Bullhead City 51.1 India Jaisalmer 42.4 Libya Aziziya

0热度

1回答

Sqoop多个作业invokation

我基于Sqoop创建导入工具，我的shell脚本的样子： while <cond> ; do sqoop import <parameters> & done 第一invokation工作正常，但我得到以下错误的休息：所致：java.sql.SQLException中：失败当我通过一个手动启动一个每次迭代转换为内部表示，他们工作得很好，但没有如上所述。我调查后发现了什么，是第一sq

0热度

1回答

Apache Spark可以加速从Oracle DB中读取数百万条记录并将它们写入文件的过程吗？

我是Apache-Spark的新手，我要求从Oracle数据库读取数百万（〜500万）条记录，然后对这些记录进行一些处理，并将处理过的记录写入文件。目前，这在Java中完成，而在此过程 - 在DB中的记录被归类为不同的子集，基于一些数据标准 - 在Java过程中，4个线程并行运行 - 每个线程读取一组子记录，处理并将处理后的记录写入新文件 - 最后它将所有这些文件合并到一个文件中。仍然需要

0热度

1回答

Mapreduce无法按值排序[python]

目的是通过输入值（它是一个json文件）对键值进行排序。我有4种方法，两对映射器和减速器。输入类似于 { id: 1, user: { friends_count: 1 } } 输出变换器和减速的第一阶段是一样的东西 A 1 B 2 C 3 D 4 我要的是 1 A 2 B 3 C 4 D 在第一阶段排序关键工作正常，但在第二阶段

0热度

3回答

Pyspark从列在数据帧中删除空值

我的数据框看起来像下面 ID,FirstName,LastName 1,Navee,Srikanth 2,,Srikanth 3,Naveen, 现在我的问题陈述我不得不删除的行号2，因为名字为空。我使用下面pyspark脚本 join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show() 我得到错误的 File "

1热度

1回答

如何将外部库添加到Hadoop map-reduce任务

我有MyClass.java来定义map-reduce任务。 MyClass.java包含mapper，reducer和main的定义。它工作正常，但如果我尝试使用/添加外部jar，我有消息ClassNotFoundException。编译我用命令： javac -classpath hadoop_library_path:my_library_path -sourcepath code_pat