2017-08-10 215 views
1

当我配置hdfs连接器时,我设置了“flush.size=3”和“rotate.interval.ms=5000”,我感到困惑的是它是否会生成大量简单文件,例如:数以万计的文件的...Kafka-connect-hdfs:微小的文件和rotate.interval设置之间的区别

files

我不想更琐碎的文件,还有没有其他可能的解决方案?

另外,rotate.interval.msrotate.schedule.interval.ms有什么区别?

回答

0

设置rotate.interval.ms=5000将每5秒调用一次文件提交。您可能希望将其保持原样,因为默认情况下会禁用它,除非数据提取率较低,并且连接器没有写入足够的消息来提交文件。

rotate.interval.ms和rotate.schedule.interval.ms之间的不同之处在于:

rotate.schedule.interval.ms将确保提交在 预定的时间内完成不管以前commits.This配置的是 有用当你不得不根据当前服务器时间提交数据时,像每小时开始时一样提供数据。

rotate.interval.ms将调用每'n'ms的文件提交并确保文件提交每'n'ms被调用。

+0

非常感谢! 每次调用文件提交都会生成新文件? 如果我禁用rotate.interval.ms和rotate.schedule.interval.ms配置,那么连接器将调用文件提交多长时间?这与内存大小有什么关系? – lcplj123