0
我有一个简单tsv
文件结构如下:dplyr:如何在跳过某些行的同时读取带有标头的tsv文件?
0 - headerline
1 - empty line
2 - PIG schema
3 - empty line
4 - 1-st line of DATA
5 - 2-nd line of DATA
我想读它,可能使用readr::read_tsv
但这里的问题。
如您所见,第一行包含标题。然后,我有三行,我做不想要读取它(它们包含来自Apache PIG一些超级怪异的数据),并在第4行的数据开始。在Pandas
,我会做类似
df = pd.read_csv('/localpath/data.tsv', sep='\t', skiprows=[1,2,3])
,让我读头和跳过一排,二,三。
我在readr::read_tsv
中看不到类似的选项。那就是:
df = read_tsv('/localpath/data.tsv', col_names = TRUE, skip = 4)
不解析头...
任何想法?
也许在第一行读取一个单独的对象,然后读取其余行? – bouncyball
你会如何编码?有没有其他的替代品与其他包?我想尽可能减少玩数据 –
使用普通的'read.table'? – rawr