2017-02-25 55 views

回答

1

该文件不能被解析为CSV文件,因为每行没有固定数量的字段(范围从2到241)。您必须自己解析并决定如何处理每个用户可变数量的语言:

import codecs 

with codecs.open('wikipedia_userlang_iso639-3.tsv', 'r', 'utf-8') as handle: 
    for line in handle: 
     chunks = line.strip().split('\t') 

     username = chunks[0] 
     languages = [c.split(',') for c in chunks[1:]] 

     # Do something with the above variables 
+0

谢谢! 如果我想用这个用户名作为列来创建一个数据框,语言作为一列以及用户使用这种语言编辑的次数,我该如何继续? – Martijn