2016-12-27 189 views
8

我不知道是什么导致这个例外一段几个小时运行后运行我的星火工作。星火:找不到CoarseGrainedScheduler

正在运行星火2.0.2

任何调试小费?

2016-12-27 03:11:22,199 [shuffle-server-3] ERROR org.apache.spark.network.server.TransportRequestHandler - Error while invoking RpcHandler#receive() for one-way message. 
org.apache.spark.SparkException: Could not find CoarseGrainedScheduler. 
    at org.apache.spark.rpc.netty.Dispatcher.postMessage(Dispatcher.scala:154) 
    at org.apache.spark.rpc.netty.Dispatcher.postOneWayMessage(Dispatcher.scala:134) 
    at org.apache.spark.rpc.netty.NettyRpcHandler.receive(NettyRpcEnv.scala:571) 
    at org.apache.spark.network.server.TransportRequestHandler.processOneWayMessage(TransportRequestHandler.java:180) 
    at org.apache.spark.network.server.TransportRequestHandler.handle(TransportRequestHandler.java:109) 
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:119) 
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:51) 
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105) 
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
    at io.netty.handler.timeout.IdleStateHandler.channelRead(IdleStateHandler.java:266) 
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
    at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103) 
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
    at org.apache.spark.network.util.TransportFrameDecoder.channelRead(TransportFrameDecoder.java:85) 
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
    at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:846) 
    at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131) 
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511) 
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468) 
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382) 
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354) 
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEve 
+0

'--conf spark.dynamicAllocation.enabled = false'是为我解决了这个问题。 ¯\ _(ツ)_/ – sinemetu1

回答

10

是的,现在我知道那个神秘异常的含义,执行者因为超过容器阈值而被杀。
有几个原因可能发生,但第一个罪魁祸首是检查你的工作或尝试添加更多的节点/执行者到你的集群。

+3

这些原因是什么?如果我对运行缓慢的作业没有问题,但不增加节点/资源会怎么样?你能给出一个更详细的解释,也许分享一个参考链接? –

3

这可能是一个资源问题。尝试增加内核和执行程序的数量,同时为应用程序分配更多RAM,然后通过调用重新分区来增加RDD的分区数量。理想的分区数量取决于以前的设置。希望这可以帮助。

0

对我而言,当我指定一个spark.read.load不存在的路径时,或者我指定了输入的错误格式,即parquet而不是csv,就发生了这种情况。

不幸的是,实际的错误有时是沉默而发生堆栈跟踪以上。有时候,虽然你可以找到另一组堆栈跟踪,而这个跟踪会更有意义。