mapreduce

0热度

1回答

使用brew安装hadoop，现在想在intelliJ IDEA中运行hadoop作业。如何设置环境并解决依赖关系？

0热度

1回答

我想在Hive v1.2.1中执行以下查询，其中field_3是从另一个表中查询的。 select user_id, start_date, field_3 as stop_date from some_table; 对于返回的每个记录，field_3的值是相同的。问题是它存储在另一个表中。为了得到这个价值，我可以得到它如下。 select max(some_field) as stop_d

0热度

1回答

包装类型如何在Hadoop中工作？

我不是一个Java专家，但我知道Java的基础知识，并且总是试图在遇到任何问题时深入理解Java代码。这可能是一个非常愚蠢的疑问，但很想清楚地理解我的想法。我在Java社区发布，因为我的疑问只是关于Java。自从最近几个月我和hadoop一起工作后，发现hadoop使用自己的类型，这些类型被封装在Java的原始类型中，以便在序列化和反序列化的基础上提高跨网络发送数据的效率。我的困惑就从这里

0热度

2回答

Hadoop的减速定制可写

我有这个下面减速类 public class CompanyMinMaxReducer extends Reducer<Text, DateClosePair, Text, Text> { private Text rText = new Text(); public void reduce(Text key, Iterable<DateClosePair> values, Cont

0热度

2回答

在单个mapreduce中同时产生最大值和最小值

我刚刚开始使用MRJob库在Python中编写MapReduce程序。在视频教程中演示的一个示例是通过location_id查找最高温度。接下来写的另一个程序，通过location_id找到最低温度也很简单。我在想，是否有一种方法可以通过location_id在单个mapreduce程序中产生最大和最小温度？下面是我走在它： from mrjob.job import MRJob '''S

0热度

1回答

Hive合并小ORC文件

我的输入包含大量的小ORC文件，我希望在一天的每一天结束，我想将数据拆分为100MB的块。我的输入和输出都是S3和环境中使用的电子病历，蜂巢参数，正在设置， set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

0热度

1回答

Reducer可以在Hadoop mapreduce中传递给驱动程序的消息吗？

我必须实现一个map-reduce作业循环。每次迭代将根据前一次迭代终止或继续。要做出的选择是基于“在减速器输出中出现一个词”。当然，我可以用我的驱动程序检查整个输出txt文件。但它只是一个单词，并且通过整个文件将会矫枉过正。我正在考虑是否有任何方法来建立减速器和驱动程序之间的通信，一旦它检测到这个词，减速器可以通知驱动程序？由于要传输的消息很少。

0热度

2回答

多个文件作为输入到Hadoop Dfs和mapreduce

通常我们在一个文本文件中输入到java文件（比如简单的字数问题）。相反，现在我有100个csv文件，我想给作为我的java代码的输入（所有文件不能简单地合并为一个文件）。试图预测给定100个股票的最大/最小股票波动率，因此每个csv文件是唯一的。那么，如何将csv文件的整个文件夹作为java程序的输入流。

0热度

1回答

输出不是在hadoop中产生的

我正在尝试使用mapreduce查找每个小部件的平均值。该作业被成功完成，但使用Hadoop FS -cat用户/流浪/示例-1 /部分-R-00000 public static class MaxWidgetReducer extends Reducer<Text, FloatWritable, FloatWritable, NullWritable> { public void

1热度

1回答

如何同时在大量文件上运行mapreduce程序？

我正在处理大型数据集并在其上运行Mapreduce程序。我可以轻松地在单个文件上运行Mapreduce，大小约为3 GB。知道我想在所有文件上运行mapreduce。是否有任何捷径或技术直接在所有文件上运行mapreduce。使用OS-Ubuntu Hadoop-2.7.1