2016-12-05 39 views
1

我有一个Spark 2.0.2结构化流式作业连接到Apache Kafka数据流作为源。这项工作需要来自kafka的Twitter数据(JSON),并使用CoreNLP对数据进行注释,例如情感,词性标注等。它可以与当地的[*]主人一起使用。但是,当我设置独立的Spark群集时,只有一名工作人员用于处理数据。我有两名具有相同能力的工人。未使用所有工作人员的结构化流式作业

当我提交我失踪的工作时,是否需要设置一些东西?我试着在spark-submit命令中设置--num-executors,但我没有运气。

在此先感谢指针在正确的方向。

+0

您的意思是说,Spark不会正确分区** RDD,因此它不会均匀分配负载上的负载?然后,您可能需要指定如何在启动时对代码进行分区 - 请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-rdd-partitions.html –

回答

相关问题