我正在处理非常短的词串,其中一些是愚蠢的。假设,我可以有一串“你是一个”,如果我删除了停用词,该字符串将是空白的。由于我在循环中进行分类,因此如果出现空白字符串,它会停止并显示错误。我创建了下面的代码来解决这个问题:Python NLTK - 防止停用词去除每个词
def title_features(words):
filter_words = [word for word in words.split() if word not in stopwords.words('english')]
features={}
if len(filter_words) >= 1:
features['First word'] = ''.join(filter_words[0])
else:
features['First word'] = ''.join(words.split()[0])
return features
这可以确保我没有错误,但我不知道是否有更有效的方式来做到这一点。或者一种方式去做它不会摆脱所有单词的地方,如果它们都是停用词。
这听起来像停止词删除不是你的语料库的好主意...... –
不是所有的人都是这样的。 我不确定这是不是一个好主意,但我要测试一下。 –