2017-08-09 135 views
0

我开发了一个Dataflow管道,它读取文件集合,并为每个文件中的每一行执行一系列Dataflow块。结合数据流结果

之后所有步骤已完成对文件中的每一行,我想对文件本身执行进一步的块,但我不知道这是如何可能的。

通过TransformManyBlock拆分处理很简单,但是如何整合呢?
我习惯了Apache Camel的SplitterAggregator功能 - 或者Dataflow的意图和我想要的用法之间存在根本的脱节?

回答

1

你可能应该看看JoinBlockBatchedJoinBlock。他们都能够加入两个或三个来源,您可以为他们设置一个过滤器来专门收集一些项目。

你一些有用的链接:

+0

我可能误解了范例,BU t我不确定''JoinBlock'如何在我的用例中起作用,因为我有'n'输入需要等待。 每个文件可能有1000行要处理。每一行都有一系列“块”,用于处理该行的内容。我希望在文件中所有行的所有块都完成后继续处理文件。 从概念上讲,这些是每个文件的子流的序列。 'JoinBlock'看起来适合处理一组固定的输入。 – nullPainter

+0

从你的问题来看,这并不明显。这种情况可以通过不同的方式解决。例如,通过过滤块或通过减少“MaxDegreeOfParallelism”。没有你的代码,很难帮助你。 – VMAtm