逗号和制表符分隔的tsv文件

这个问题是针对使用熊猫库的python 2.7。我下载了这个文件： http://language.media.mit.edu/data/public/wikipedia_userlang_iso639-3.zip 这是一个带有制表符和逗号的文件。我为此搜索了整个互联网。逗号和制表符分隔的tsv文件

我想用熊猫分开这个。这给出了错误：

df = pd.read_table('wikipedia_userlang_iso639-3.tsv', sep= '\t') 

print df [:10]

因为该文件也有逗号。

非常感谢帮助！

来源

2017-02-25 Martijn

该文件不能被解析为CSV文件，因为每行没有固定数量的字段（范围从2到241）。您必须自己解析并决定如何处理每个用户可变数量的语言：

import codecs 

with codecs.open('wikipedia_userlang_iso639-3.tsv', 'r', 'utf-8') as handle: 
    for line in handle: 
     chunks = line.strip().split('\t') 

     username = chunks[0] 
     languages = [c.split(',') for c in chunks[1:]] 

     # Do something with the above variables

来源

2017-02-25 23:48:24 Blender

谢谢！如果我想用这个用户名作为列来创建一个数据框，语言作为一列以及用户使用这种语言编辑的次数，我该如何继续？ – Martijn

逗号和制表符分隔的tsv文件

回答

相关问题