mapreduce

    0热度

    1回答

    使用brew安装hadoop,现在想在intelliJ IDEA中运行hadoop作业。如何设置环境并解决依赖关系?

    0热度

    1回答

    我想在Hive v1.2.1中执行以下查询,其中field_3是从另一个表中查询的。 select user_id, start_date, field_3 as stop_date from some_table; 对于返回的每个记录,field_3的值是相同的。问题是它存储在另一个表中。为了得到这个价值,我可以得到它如下。 select max(some_field) as stop_d

    0热度

    1回答

    我不是一个Java专家,但我知道Java的基础知识,并且总是试图在遇到任何问题时深入理解Java代码。 这可能是一个非常愚蠢的疑问,但很想清楚地理解我的想法。 我在Java社区发布,因为我的疑问只是关于Java。 自从最近几个月我和hadoop一起工作后,发现hadoop使用自己的类型,这些类型被封装在Java的原始类型中,以便在序列化和反序列化的基础上提高跨网络发送数据的效率。 我的困惑就从这里

    0热度

    2回答

    我有这个下面减速类 public class CompanyMinMaxReducer extends Reducer<Text, DateClosePair, Text, Text> { private Text rText = new Text(); public void reduce(Text key, Iterable<DateClosePair> values, Cont

    0热度

    2回答

    我刚刚开始使用MRJob库在Python中编写MapReduce程序。 在视频教程中演示的一个示例是通过location_id查找最高温度。接下来写的另一个程序,通过location_id找到最低温度也很简单。 我在想,是否有一种方法可以通过location_id在单个mapreduce程序中产生最大和最小温度?下面是我走在它: from mrjob.job import MRJob '''S

    0热度

    1回答

    我的输入包含大量的小ORC文件,我希望在一天的每一天结束,我想将数据拆分为100MB的块。 我的输入和输出都是S3和环境中使用的电子病历, 蜂巢参数,正在设置, set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

    0热度

    1回答

    我必须实现一个map-reduce作业循环。每次迭代将根据前一次迭代终止或继续。要做出的选择是基于“在减速器输出中出现一个词”。 当然,我可以用我的驱动程序检查整个输出txt文件。但它只是一个单词,并且通过整个文件将会矫枉过正。我正在考虑是否有任何方法来建立减速器和驱动程序之间的通信,一旦它检测到这个词,减速器可以通知驱动程序?由于要传输的消息很少。

    0热度

    2回答

    通常我们在一个文本文件中输入到java文件(比如简单的字数问题)。相反,现在我有100个csv文件,我想给作为我的java代码的输入(所有文件不能简单地合并为一个文件)。试图预测给定100个股票的最大/最小股票波动率,因此每个csv文件是唯一的。 那么,如何将csv文件的整个文件夹作为java程序的输入流。

    0热度

    1回答

    我正在尝试使用mapreduce查找每个小部件的平均值。该作业被成功完成,但使用Hadoop FS -cat用户/流浪/示例-1 /部分-R-00000 public static class MaxWidgetReducer extends Reducer<Text, FloatWritable, FloatWritable, NullWritable> { public void

    1热度

    1回答

    我正在处理大型数据集并在其上运行Mapreduce程序。我可以轻松地在单个文件上运行Mapreduce,大小约为3 GB。知道我想在所有文件上运行mapreduce。是否有任何捷径或技术直接在所有文件上运行mapreduce。 使用OS-Ubuntu Hadoop-2.7.1