我使用MergeContent按以下方式“批量”处理来自多个ExecuteSQL的传入响应。在合并内容处理器中,我将“最小条目数”设置为1000,“最大条件期限”设置为30秒。然后我有一个相关属性名称,用于分拣传入的FlowFiles。这似乎按我的预期工作,但我的问题有两个:批处理流文件进入MergeContent
答:这是一个明智的方法,还是有更好/更有效的方法来做到这一点?也许组合的ListFile/GetFile/MergeContent等...
B.是否存在性能/可伸缩性问题,具有“较大”数量的最小入口数量?
我的最终目标是尝试将来自ExecuteSQL命令的许多结果合并到单个文件中,并由其相关属性名称进行归档。
除了Andy所说的之外,只是想提一下MergeContent在即将到来的Apache NiFi 1.1发行版中的性能改进,JIRA就是这个https://issues.apache.org/jira/browse/NIFI- 2850 –
嘿安迪和布莱恩,谢谢你的额外信息和见解。这1000个条目只是我选择的任意数字,而目前大部分数据都包含在一些新的Flow文件中。这很大程度上取决于查询从ExecuteSQL返回的速度,以及这些Flowfiles通过MergeContent处理器的其余工作流程的速度。我会继续修改各种配置设置并进行相应的调整。再一次,谢谢你。 – danoyoung