SequenceFile输入格式在Oozie workflow.xml中无法识别？

我有一个MR程序可以在一堆SequenceFile上完美运行，输出如预期。当我尝试通过Oozie WorkFlow实现相同目的时，InputFormat类属性无法识别，我感觉输入仅被视为默认TextInputFormat。SequenceFile输入格式在Oozie workflow.xml中无法识别？

下面是如何声明映射器。 SequenceFile键是LongWritable，值是Text。

public static class FeederCounterMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ 

    // setup map function for stripping the feeder for a zone from the input 
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{ 

     final int count = 1;    

     // convert input rec to string   
     String inRec = value.toString(); 

     System.out.println("Feeder:" + inRec); 

     // strip out the feeder from record 
     String feeder = inRec.substring(3, 7);   

     // write the key+value as map output 
     context.write(new Text(feeder), new IntWritable(count)); 
    } 
}

工作流布局为我的应用是如下

/{$namenode}/workflow.xml 
/{$namenode}/lib/FeederCounterDriver.jar

下面是我的workflow.xml。 $ namenode，$ jobtracker，$ outputdir，$ inputdir在job.properties文件中定义。

<map-reduce> 
    <job-tracker>${jobTracker}</job-tracker> 
    <name-node>${nameNode}</name-node> 
    <prepare> 
    <delete path="${nameNode}/${outputDir}"/> 
    </prepare> 
    <configuration> 
    <property> 
     <name>mapred.reducer.new-api</name> 
     <value>true</value> 
    </property> 
    <property> 
     <name>mapred.mapper.new-api</name> 
     <value>true</value> 
    </property> 
    <property> 
     <name>mapreduce.job.queue.name</name> 
     <value>${queueName}</value> 
    </property> 
    <property> 
     <name>mapred.input.dir</name> 
     <value>/flume/events/sincal*</value> 
    </property> 
    <property> 
     <name>mapred.output.dir</name> 
     <value>${outputDir}</value> 
    </property> 
    <property> 
     <name>mapred.input.format.class</name> 
     <value>org.apache.hadoop.mapred.SequenceFileInputFormat</value> 
    </property> 
    <property> 
     <name>mapred.output.format.class</name> 
     <value>org.apache.hadoop.mapred.TextOutputFormat</value> 
    </property> 
    <property> 
     <name>mapred.input.key.class</name> 
     <value>org.apache.hadoop.io.LongWritable</value> 
    </property> 
    <property> 
     <name>mapred.input.value.class</name> 
     <value>org.apache.hadoop.io.Text</value> 
    </property> 
    <property> 
     <name>mapred.output.key.class</name> 
     <value>org.apache.hadoop.io.Text</value> 
    </property> 
    <property> 
     <name>mapred.output.value.class</name> 
     <value>org.apache.hadoop.io.IntWritable</value> 
    </property> 
    <property> 
     <name>mapreduce.map.class</name> 
     <value>org.poc.hadoop121.gissincal.FeederCounterDriver$FeederCounterMapper</value> 
    </property> 
    <property> 
     <name>mapreduce.reduce.class</name> 
     <value>org.poc.hadoop121.gissincal.FeederCounterDriver$FeederCounterReducer</value> 
    </property> 
    <property> 
     <name>mapreduce.map.tasks</name> 
     <value>1</value> 
    </property>     
</configuration> 
</map-reduce>

粗壮的一个片段（第一2行）当我运行MR作业是

Feeder:00107371PA1700TEET67576  LKHS 5666LH 2.....   
Feeder:00107231PA1300TXDS 8731TX 1FSHS 8731FH 1.....

的输出（第一3行）当我运行使用Ooozie工作流程是

的片断

Feeder:SEQ!org.apache.hadoop.io.LongWritableorg.apache.hadoop.io.Text�������b'b��X�... 
Feeder:��00105271PA1000FSHS 2255FH 1TXDS 2255TX 1..... 
Feeder:��00103171PA1800LKHS 3192LH 2LKHS 2335LH 1.....

从Oozie工作流的上述输出中，我高度怀疑在workflow.xml中提到的输入格式SequenceFileInputFormat甚至被考虑过，否则我觉得这被覆盖。

对此的任何输入都会有所帮助。谢谢

来源

2014-10-12 shiva

在作业跟踪器中查找为此mapreduce作业创建的job.xml，并查看在那里设置的输入格式类是什么。这将确认它是否与输入格式有关。

来源

2014-10-20 07:26:47 NelsonPaul

我有一个非常类似的问题，我得到了Oozie的设置我的财产这样

<property> 
    <name>mapreduce.inputformat.class</name> 
    <value>org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat</value> 
</property>

那么一个点，从属性名称中删除使用正确的输入格式（检查您的版本）和班也改变了。

来源

2015-02-09 22:44:34 jfno

我运行Hadoop 1.2.1并且您提供的解决方案是针对Hadoop 2.x的？我对吗？谢谢。 – shiva 2015-02-11 02:38:35

对不起，延迟时间也是1.2.x。 – jfno 2015-03-11 19:08:49

SequenceFile输入格式在Oozie workflow.xml中无法识别？

回答

相关问题