2013-12-18 23 views
1

我运行的Apache猪0.11.2用Hadoop 2.2.0。获取错误apche的猪在纱线行走时“org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker3/10.201.2.169:50000”

,我在猪运行的大多数简单的工作完全正常工作。

然而,每当我试图在大数据集使用GROUP BY,或LIMIT运营商,我得到这些连接错误:

2013年12月18日11:21:28,400 [ main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker2/10.201.2.145:54957。 已尝试0次(s);重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries = 3,休眠时间= 1秒) 2013年12月18日11:21:29402 [主要] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker2/10.201。 2.145:54957。已经 尝试过1次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries = 3,休眠时间= 1秒) 2013年12月18日11:21:30403 [主要] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker2/10.201。 2.145:54957。已经 尝试过2次; RetryUpToMaximumCountWithFixedSleep(maxRetries = 3,sleepTime = 1 SECONDS) 2013-12-18 11:21:30,507 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - 应用程序状态为 已完成。 FinalApplicationStatus =成功。重定向到作业 历史记录服务器2013-12-18 11:21:31,703 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器: tasktracker1/10.201.2.20:49528。已经尝试0次(s);重试策略 是RetryUpToMaximumCountWithFixedSleep(maxRetries = 3,休眠时间= 1 秒),2013年12月18日11:21:32704 [主要] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器: tasktracker1/10.201 .2.20:49528。已经尝试过1次;重试策略 是RetryUpToMaximumCountWithFixedSleep(maxRetries = 3,休眠时间= 1 秒),2013年12月18日11:21:33705 [主要] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器: tasktracker1/10.201 .2.20:49528。已经尝试过2次(s);重试策略 是RetryUpToToMaximumCountWithFixedSleep(maxRetries = 3,sleepTime = 1 SECONDS)2013-12-18 11:21:33,809 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - 应用程序状态为 已完成。 FinalApplicationStatus =成功。重定向到工作 历史服务器2013年12月18日11:21:34890 [主] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器: tasktracker3/10.201.2.169:50000。已经尝试0次(s);重试策略 是RetryUpToMaximumCountWithFixedSleep(maxRetries = 3,休眠时间= 1 秒),2013年12月18日11:21:35891 [主要] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器: tasktracker3/10.201 .2.169:50000。已经尝试过1次;重试策略 是RetryUpToMaximumCountWithFixedSleep(maxRetries = 3,休眠时间= 1 秒),2013年12月18日11:21:36893 [主要] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器: tasktracker3/10.201 .2.169:50000。已经尝试过2次(s);重试策略 是RetryUpToToMaximumCountWithFixedSleep(maxRetries = 3,sleepTime = 1 SECONDS)2013-12-18 11:21:36,996 [main] INFO org.apache.hadoop.mapred。ClientServiceDelegate - 应用程序状态为 已完成。 FinalApplicationStatus =成功。重定向到工作 历史服务器2013年12月18日11:21:37152 [主] INFO org.apache.hadoop.mapred.ClientServiceDelegate - 应用程序状态 完成。 FinalApplicationStatus =成功。重定向到工作 历史服务器

奇怪的是,这些错误保持约分钟出现了之后,他们就会停止,并在底部正确的输出显示出来。

所以,Hadoop是运行良好,并计算适当的输出。问题在于这些连接错误一直在弹出。并导致脚本的执行时间增加。我已经注意到

的一件事是,每当出现这种错误,作业创造和作业期间多个JAR文件。但是,在弹出这些消息几分钟后,终于出现正确的输出。

我有5个节点集群1个名称节点和数据管理部4。所有的守护进程都运行良好。

任何建议如何摆脱这些消息的?

回答

1

看起来你的工作经历服务器没有运行。

  1. 开启日志聚合(您可能已经这样做了,你就只缺少服务器) - 把这个给你yarn-site.xml

    <property> 
        <name>yarn.log-aggregation-enable</name> 
        <value>true</value> 
    </property> 
    
  2. 运行作业历史服务器:

    $HADOOP_INSTALL/sbin/mr-jobhistory-daemon.sh start historyserver 
    
  3. 尝试运行猪脚本再次

相关问题