从语料库中删除非ASCII文件

我正在为我的项目使用NLTK。但是，如果存在非'ascii'字样的'•'。 NLTK不能标记它。我使用nltk.word_tokenize作为标记器。如何从整个语料库中删除这些词或让词表识别器察觉到这些词？从语料库中删除非ASCII文件

来源

2014-11-04 IllSc

使用下面的代码从您的文集中删除非ASCII：

ip=open(nonascii.txt,'r') 
#Edit should be in w mode 
op=open(ascii.txt,'w') 
for line in ip: 
     line=line.strip().decode("ascii","ignore").encode("ascii") 
     if line=="":continue 
     op.write(line) 
ip.close() 
op.close()

来源

2014-11-04 07:32:28

从语料库中删除非ASCII文件

回答

相关问题