2017-11-10 191 views
0

我正在使用Java Spark API,对于KafkaUtils.createDirectStream,我想跟踪偏移量。 有一个名为fromOffset的参数,它记录了Kafka主题分区中的偏移量。对于第一次运行,我不知道将有多少个分区,那么如何设置此参数? 并且我是否需要在Kafka参数中设置“auto.offset.reset”? 如果是,它会影响我的代码从已知的偏移中恢复吗?Spark Streaming Kafka初始偏移量

+0

如果您不知道分区数量,您如何知道每个分区的起始偏移量? – Mariusz

+0

如果我将“auto.offset.reset”设置为最小或最大,我仍然可以从每个红色获得分区和偏移信息 – peng

回答

0

你有两种选择:

  • 的情况下,你没有关于partions的任何信息,不提供参数去createDirectStream。 createDirectStream方法有几个实践。在这种情况下,或者每个topicPartition将使用最早或最近的偏移量(基于auto.offset.reset param)

  • 您可以使用通常的kafka API找到分区,偏移量。例如外观How to find the offset range for a topic-partition in Kafka 0.10?

+0

谢谢!反正Kafka 0.8有吗?因为0.10是实验性的API – peng

相关问题