3
我正在构建作用于多个流的Apache Spark应用程序。Spark流和高可用性
我并阅读文档的性能调优部分: http://spark.apache.org/docs/latest/streaming-programming-guide.html#performance-tuning
我没有得到的是:
1)位于多个工作节点的流媒体接收器或者是驱动程序的机器?
2)如果接收数据的节点中的一个出现故障,会发生什么(电源关闭/重启)
好的,所以如果带接收器的工人将被杀死 - 驱动程序将重新实例化接收器,并且新工人将再次开始接收数据 - 所有这一切都会自动进行。这听起来很合理,但它是否在某处被记录? –
@PiotrR我认为你是[寻找这个](http://spark.apache.org/docs/latest/streaming-programming-guide.html#fault-tolerance-semantics) –