添加/删除带有空格的停用词的最佳方式是什么?我正在使用token.is_stop
函数,并希望对该集进行一些客户更改。我正在查看文档,但找不到关于停用词的任何内容。谢谢!添加/删除带空格的停用词
回答
你可以处理你的文字是这样的(见this post)前编辑:
>>> import spacy
>>> nlp = spacy.load("en")
>>> nlp.vocab["the"].is_stop = False
>>> nlp.vocab["definitelynotastopword"].is_stop = True
>>> sentence = nlp("the word is definitelynotastopword")
>>> sentence[0].is_stop
False
>>> sentence[3].is_stop
True
注:这似乎是工作< = V1.8。对于较新的版本,请参阅其他答案。
对于2.0版本,我用这个:
from spacy.lang.en.stop_words import STOP_WORDS
print(STOP_WORDS) # <- set of Spacy's default stop words
STOP_WORDS.add("your_additional_stop_word_here")
for word in STOP_WORDS:
lexeme = nlp.vocab[word]
lexeme.is_stop = True
此加载所有停用词成一组。
您可以将您的停用词修改为STOP_WORDS
或首先使用您自己的列表。
在2.0版本中做了这个,并且得到了“ImportError:没有名为en.stop_words的模块”......建议? – user1025852
@ user1025852如果有更新我的答案。 – petezurich
'spacy.lang.en.stop_words'也给出错误。 – jxn
- 1. 删除带空格的单词
- 2. 如何从文本文件中删除停用词而不删除空格
- 3. 删除句子中的停用词
- 4. 当单词太长时添加空格
- 5. PDFBox在单词内添加空格
- 6. 删除空格
- 7. 删除空格
- 8. 删除空格
- 9. 删除空格
- 10. 如何使用RegexKitLite删除任何两个单词之间的空格/空格?
- 11. NLTK从CSV中删除停用词
- 12. 从数据框中删除停用词
- 13. 在java中删除停用词
- 14. 从推文中删除停用词Python
- 15. 从文件中删除停用词
- 16. 删除停用词从文本文件
- 17. tm_map删除包含我的停用词的词吗?
- 18. 悬停时添加/删除z-index
- 19. HAML添加轨的link_to后点之前删除空格,MAIL_TO
- 20. 删除带有'pop'的单词
- 21. 使用PIG删除空格
- 22. 阅读csv文件,删除停用词,找到唯一的词
- 23. 在R中删除带撇号的词组,用于词云
- 24. 如何在格式化时停止删除空格的日食
- 25. 删除尾部空格并将它们添加为前导空格
- 26. 删除空格组
- 27. C - 删除空格
- 28. DOS:删除空格
- 29. opentbs删除空格
- 30. 删除动态添加的表格
完整列表:'from spacy.en.word_sets import STOP_WORDS' – Xeoncross