当我配置hdfs连接器时,我设置了“flush.size=3
”和“rotate.interval.ms=5000
”,我感到困惑的是它是否会生成大量简单文件,例如:数以万计的文件的...Kafka-connect-hdfs:微小的文件和rotate.interval设置之间的区别
我不想更琐碎的文件,还有没有其他可能的解决方案?
另外,rotate.interval.ms
和rotate.schedule.interval.ms
有什么区别?
当我配置hdfs连接器时,我设置了“flush.size=3
”和“rotate.interval.ms=5000
”,我感到困惑的是它是否会生成大量简单文件,例如:数以万计的文件的...Kafka-connect-hdfs:微小的文件和rotate.interval设置之间的区别
我不想更琐碎的文件,还有没有其他可能的解决方案?
另外,rotate.interval.ms
和rotate.schedule.interval.ms
有什么区别?
设置rotate.interval.ms=5000
将每5秒调用一次文件提交。您可能希望将其保持原样,因为默认情况下会禁用它,除非数据提取率较低,并且连接器没有写入足够的消息来提交文件。
rotate.interval.ms和rotate.schedule.interval.ms之间的不同之处在于:
rotate.schedule.interval.ms
将确保提交在 预定的时间内完成不管以前commits.This配置的是 有用当你不得不根据当前服务器时间提交数据时,像每小时开始时一样提供数据。
rotate.interval.ms
将调用每'n'ms的文件提交并确保文件提交每'n'ms被调用。
非常感谢! 每次调用文件提交都会生成新文件? 如果我禁用rotate.interval.ms和rotate.schedule.interval.ms配置,那么连接器将调用文件提交多长时间?这与内存大小有什么关系? – lcplj123