2014-10-07 58 views
1

命令:./crawl /网址/ MYDIR XXXXX 2Hadoop的2.5.1 + Nutch的-2.2.1:实测值接口org.apache.hadoop.mapreduce.TaskAttemptContext,但类预计

当我在Hadoop-2.5.1和Nutch-2.2.1中运行这个命令,我得到的错误信息如下。

14/10/07 19点58分10秒INFO mapreduce.Job:正在运行的作业:job_1411692996443_0016
14/10/07 19点58分十七秒INFO mapreduce.Job:工作job_1411692996443_0016在超级模式下运行:假 14/10月7日19时58分十七秒INFO mapreduce.Job:地图0%减少0%
14/10/07 19时58分21秒INFO mapreduce.Job:任务标识:attempt_1411692996443_0016_m_000000_0,状态:FAILED
错误:发现界面org.apache.hadoop.mapreduce.TaskAttemptContext,但类预计
14/10/07 19时58分26秒INFO mapreduce.Job:任务标识:attempt_1411692996443_0016_m_000000_1,状态:失败
错误:发现界面org.apache.hadoop.mapreduce.TaskAttemptContext,但类预计 14/10/07 19时58分31秒INFO mapreduce.Job:任务标识:attempt_1411692996443_0016_m_000000_2,状态:失败
错误:发现接口org.apache.hadoop.mapreduce.TaskAttemptContext,但期望类 14/10/07 19:58:36 INFO mapreduce.Job:map 100%reduce 0% 14/10/07 19:58: 36信息mapreduce.Job:作业job_1411692996443_0016由于以下原因而失败,状态为FAILED:任务失败task_1411692996443_0016_m_000000
作业失败,因为任务失败。 failedMaps:1个failedReduces:0
14/10/07 19时58分36秒INFO mapreduce.Job:计数器:12

Job Counters 
    Failed map tasks=4 
    Launched map tasks=4 
    Other local map tasks=3 
    Data-local map tasks=1 
    Total time spent by all maps in occupied slots (ms)=11785 
    Total time spent by all reduces in occupied slots (ms)=0 
    Total time spent by all map tasks (ms)=11785 
    Total vcore-seconds taken by all map tasks=11785 
    Total megabyte-seconds taken by all map tasks=12067840 
Map-Reduce Framework 
    CPU time spent (ms)=0 
    Physical memory (bytes) snapshot=0 
    Virtual memory (bytes) snapshot=0 

14/10/07 19时58分36秒ERROR crawl.InjectorJob:InjectorJob:了java.lang.RuntimeException:作业失败:名称= [/ MYDIR]注入/网址,作业ID = job_1411692996443_0016

at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55) 
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:233) 
at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:251) 
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:273) 
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 
at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:282) 
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
at java.lang.reflect.Method.invoke(Method.java:483) 
at org.apache.hadoop.util.RunJar.main(RunJar.java:212) 
+1

那么,什么是问题? – Eliyahu 2014-10-07 12:40:57

+0

如何进行抓取?关于Haoop-2.5.1集群中Nutch-2.2.1的配置有一些很好的建议。一个非常大的感谢进步。 – emailfeifan 2014-10-07 14:54:30

+0

这很明显是什么问题。你如何解决错误信息。 – 2014-11-20 07:17:24

回答

0

也许你正在使用使用Hadoop 1编译戈拉(或其他水木清华)(从行家回购?)。您可以下载Gora(0.5?)并使用Hadoop 2构建它。

也许这只是这一系列问题中的第一个麻烦。 请通知我们您的未来步骤。

0

我对Nutch的2.x中也有类似的错误使用Hadoop 2.4.0

重新编译Nutch的使用Hadoop 2.5.1依赖(常春藤),并排除所有的Hadoop 1.x的依赖关系 - 你可以在lib中找到他们 - 可能Hadoop的核心。