2014-11-04 85 views
3

我正在为我的项目使用NLTK。但是,如果存在非'ascii'字样的'•'。 NLTK不能标记它。 我使用nltk.word_tokenize作为标记器。 如何从整个语料库中删除这些词或让词表识别器察觉到这些词?从语料库中删除非ASCII文件

回答

3

使用下面的代码从您的文集中删除非ASCII

ip=open(nonascii.txt,'r') 
#Edit should be in w mode 
op=open(ascii.txt,'w') 
for line in ip: 
     line=line.strip().decode("ascii","ignore").encode("ascii") 
     if line=="":continue 
     op.write(line) 
ip.close() 
op.close()