1

我想在使用Google数据流时读取文件时跳过前导行。该功能是否可用于最新版本? 这些文件保存在谷歌存储。 我将这些文件写入大查询。在读取Google数据流中的文件时跳过前导行

bq加载命令有选项--skip_leading_rows。从文件读取时,此选项跳过前导行。

我想在google数据流中使用类似的功能。 我的输入格式如下。

我想谷歌的数据流忽略第一线,只有线的其余部分写入大查询

enter image description here

+1

一般来说,内置的TextIO转换不支持这一点,但让我们尝试找到有效的东西。你可以编辑这个问题,并给出你想要读取的输入格式的简短示例片段吗? – jkff

+1

可能重复的[跳过标题行 - 是否可以使用Cloud DataFlow?](http://stackoverflow.com/questions/28450554/skipping-header-rows-is-it-possible-with-cloud-dataflow) –

+0

嘿嘿但是这个问题在大约1。5年前得到了回答。因此,自那时以来,新功能可能已添加到数据流中。 –

回答

2

此功能在数据流/帕尔多的直接支持。

您需要使用Filter.byPredicate()来实现此目的。

例如

PCollection<X> rows = ...; 
PCollection<X> nonHeaders = 
    rows.apply(Filter.by(new MatchIfNonHeader())); 
相关问题