在读取Google数据流中的文件时跳过前导行

我想在使用Google数据流时读取文件时跳过前导行。该功能是否可用于最新版本？这些文件保存在谷歌存储。我将这些文件写入大查询。在读取Google数据流中的文件时跳过前导行

bq加载命令有选项--skip_leading_rows。从文件读取时，此选项跳过前导行。

我想在google数据流中使用类似的功能。我的输入格式如下。

我想谷歌的数据流忽略第一线，只有线的其余部分写入大查询

一般来说，内置的TextIO转换不支持这一点，但让我们尝试找到有效的东西。你可以编辑这个问题，并给出你想要读取的输入格式的简短示例片段吗？ – jkff

可能重复的[跳过标题行 - 是否可以使用Cloud DataFlow？]（http://stackoverflow.com/questions/28450554/skipping-header-rows-is-it-possible-with-cloud-dataflow） –

嘿嘿但是这个问题在大约1。5年前得到了回答。因此，自那时以来，新功能可能已添加到数据流中。 –

此功能在数据流/帕尔多的直接支持。

您需要使用Filter.byPredicate()来实现此目的。

例如

PCollection<X> rows = ...; 
PCollection<X> nonHeaders = 
    rows.apply(Filter.by(new MatchIfNonHeader()));

2016-08-10 08:21:24

回答