Hadoop - 如何从mapred.JobConf中提取taskId？

是否可以从*mapred*.JobConf创建有效的*mapreduce*.TaskAttemptID？Hadoop - 如何从mapred.JobConf中提取taskId？

背景

我需要写一个FileInputFormatAdapter为ExistingFileInputFormat。问题是适配器需要扩展mapred.InputFormat，现有格式扩展为mapreduce.InputFormat。

我需要构建一个mapreduce.TaskAttemptContextImpl，以便我可以实例化ExistingRecordReader。但是，我无法创建有效的TaskId ... taskId以空值出现。

那么如何从mapred.JobConf获得taskId，jobId等。

特别是在适配器的getRecordReader我需要做的是这样的：

public org.apache.hadoop.mapred.RecordReader<NullWritable, MyWritable> getRecordReader(
     org.apache.hadoop.mapred.InputSplit split, JobConf job, Reporter reporter) throws IOException { 

    SplitAdapter splitAdapter = (SplitAdapter) split; 

    final Configuration conf = job; 

    /*************************************************/ 
    //The problem is here, "mapred.task.id" is not in the conf 
    /*************************************************/ 
    final TaskAttemptID taskId = TaskAttemptID.forName(conf.get("mapred.task.id")); 

    final TaskAttemptContext context = new TaskAttemptContextImpl(conf, taskId); 
    try { 
     return new RecordReaderAdapter(new ExistingRecordReader(
       splitAdapter.getMapRedeuceSplit(), 
       context)); 
    } catch (InterruptedException e) { 
     throw new RuntimeException("Failed to create record-reader.", e); 
    } 
}

此代码抛出一个异常：

Caused by: java.lang.NullPointerException 
    at org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl.<init>(TaskAttemptContextImpl.java:44) 
    at org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl.<init>(TaskAttemptContextImpl.java:39)

'超（CONF，taskId.getJobID（））;'抛出异常，很可能是因为taskId为空。

来源

2015-02-11 hba

我通过查找HiveHbaseTableInputFormat找到答案。由于我的解决方案是针对配置单元的，因此完美地工作。

TaskAttemptContext tac = ShimLoader.getHadoopShims().newTaskAttemptContext(
     job.getConfiguration(), reporter);

来源

2015-02-12 18:09:49 hba

Hadoop - 如何从mapred.JobConf中提取taskId？

回答

相关问题