3
我正在为我的项目使用NLTK。但是,如果存在非'ascii'字样的'•'。 NLTK不能标记它。 我使用nltk.word_tokenize
作为标记器。 如何从整个语料库中删除这些词或让词表识别器察觉到这些词?从语料库中删除非ASCII文件
我正在为我的项目使用NLTK。但是,如果存在非'ascii'字样的'•'。 NLTK不能标记它。 我使用nltk.word_tokenize
作为标记器。 如何从整个语料库中删除这些词或让词表识别器察觉到这些词?从语料库中删除非ASCII文件
使用下面的代码从您的文集中删除非ASCII:
ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
line=line.strip().decode("ascii","ignore").encode("ascii")
if line=="":continue
op.write(line)
ip.close()
op.close()