未使用所有工作人员的结构化流式作业

我有一个Spark 2.0.2结构化流式作业连接到Apache Kafka数据流作为源。这项工作需要来自kafka的Twitter数据（JSON），并使用CoreNLP对数据进行注释，例如情感，词性标注等。它可以与当地的[*]主人一起使用。但是，当我设置独立的Spark群集时，只有一名工作人员用于处理数据。我有两名具有相同能力的工人。未使用所有工作人员的结构化流式作业

当我提交我失踪的工作时，是否需要设置一些东西？我试着在spark-submit命令中设置--num-executors，但我没有运气。

在此先感谢指针在正确的方向。

来源

2016-12-05 user3220598

您的意思是说，Spark不会正确分区** RDD，因此它不会均匀分配负载上的负载？然后，您可能需要指定如何在启动时对代码进行分区 - 请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-rdd-partitions.html –

我最终创建了更多分区的kafka源码流。这似乎加快了处理第9部分。火花和卡夫卡有很多旋钮。很多筛选...请参阅Kafka topic partitions to Spark streaming

来源

2016-12-06 14:39:25 user3220598

未使用所有工作人员的结构化流式作业

回答

相关问题