MultideInput MapReduce with ResultSerialization

我知道结果序列化用于我使用单个输入表的情况。MultideInput MapReduce with ResultSerialization

TableMapReduceUtil.initTableMapperJob(tableName, scan, Mapper.class, Text.class, Result.class, job);

任何想法如何使用MultiTableInput（多个扫描作为输入）时可以实现相同？

TableMapReduceUtil.initTableMapperJob(scans, SummaryMapper.class, Text.class, Result.class, job);

我碰到下面的错误运行MR的工作，而：

INFO mapreduce.Job: Task Id : attempt_1492475015807_0003_m_000003_2, Status : FAILED Error: java.lang.NullPointerException at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:988) at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:391) at org.apache.hadoop.mapred.MapTask.access$100(MapTask.java:80) at org.apache.hadoop.mapred.MapTask$NewOutputCollector.(MapTask.java:675) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:747) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:340) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)

来源

2017-04-18 KNP

我能够通过这个阶段获得的。我在作业配置中明确指定了ResultSerialization类（但必须在作业实例创建之前完成）。

config.setStrings("io.serializations", config.get("io.serializations"), 
        MutationSerialization.class.getName(), ResultSerialization.class.getName(), 
        KeyValueSerialization.class.getName());

这是他在使用单个输入表时初始化映射器时如何指定的。如果我对此有任何进一步的调查结果，我将确保更新此答案，以便可能对其他需要此方法的人有用。

来源

2017-04-18 16:00:27 KNP

MultideInput MapReduce with ResultSerialization

回答

相关问题