1

我正在尝试使用Kafka进行Spark SQL结构流式传输。我正在为kafka选项寻找这个必需的选项subscribePattern [Java正则表达式字符串]。显然只有3个值是可能的:“转让,‘订阅’或‘subscribePattern’Spark SQL:使用Kafka subscribepattern选项进行流式传输

当我GOOGLE了这个选项,信息最有用的部分想出了如下: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-streaming/spark-streaming-kafka-ConsumerStrategy.html

任何人都可以放对于我来说,这三个选项中最明显的区别是什么?对于Spark SQL来说,有什么不同的行为呢?

回答

1

然而,对于卡夫卡消费者,我并不熟悉Spark,但有三种选择:

  1. 赋值:手动分配主题分区(即,您可以执行任何所需的分区分配)。这将禁用使用者组管理,因此,如果您有多个使用者并且想要平衡负载以便自己照顾不要分配两次分区。
  2. 订阅:指定一组您想要读取的主题。消费者组管理将分区的实际分配(即,如果组中有多个消费者,分区将分布在组内的所有消费者)
  3. 模式:类似于(2),但是您指定正则表达式并订阅所有与正则表达式匹配的主题
相关问题