2016-06-08 42 views
1

我在哪里可以找到停用词的详尽列表?我拥有的这本书很短,似乎不适用于科学文献。 我正在创建词汇链以从科学论文中提取关键主题。问题在于,像based,regarding等词语也应该被视为停用词,因为它们没有太多意义。在哪里可以找到停用词的详尽列表?

回答

1

您还可以轻松添加到现有的停止词列表。例如。使用一个在NLTK工具箱:

from nltk.corpus import stopwords 

,然后添加任何你认为丢失:描述here

stopwords = stopwords.words('english')+["based", "regarding"] 

原来NLTK列表。

1

很难找到停用词的详尽列表,因为给定的词可以被视为给定域中的停用词,但它是另一个域中的重要词。

,你可以看看的停止词的一些列表:

http://blog.adlegant.com/how-to-install-nltk-corporastopwords/

http://www.lextek.com/manuals/onix/stopwords1.html

http://www.ranks.nl/stopwords

http://xpo6.com/list-of-english-stop-words/

+0

也许在这种情况下,检查某些域特定字典更重要? (我使用WordNet)...我是NLP的新手 – Klue

相关问题