我一直在为Apache Beam工作几天。我想快速迭代我正在工作的应用程序,并确保我构建的管道没有错误。在火花中,我们可以使用sc.parallelise
,当我们应用某些操作时,我们可以获得我们可以检查的值。从Apache Beam管道收集输出并将其显示到控制台
同样,当我读到关于Apache梁,我发现,我们可以创建一个PCollection
与它使用下面的语法
with beam.Pipeline() as pipeline:
lines = pipeline | beam.Create(["this is test", "this is another test"])
word_count = (lines
| "Word" >> beam.ParDo(lambda line: line.split(" "))
| "Pair of One" >> beam.Map(lambda w: (w, 1))
| "Group" >> beam.GroupByKey()
| "Count" >> beam.Map(lambda (w, o): (w, sum(o))))
result = pipeline.run()
我其实是想打印结果到控制台中工作。但是我找不到任何文档。
有没有办法将结果打印到控制台,而不是每次都将其保存到文件中?