2016-12-15 73 views
3

我想在执行主题建模之前删除停用词。我注意到一些否定词(通常不是,也不是,没有,等等)通常被认为是停用词。例如,NLTK,spacy和sklearn在他们的停用词列表中包括“不”。但是,如果我们从下面的这些句子中删除“不”,它们将失去重要意义,并且这对于主题建模或情感分析来说是不准确的。NLP - 为什么“不”是一个停止词?

1). StackOverflow is helpful  => StackOverflow helpful 
2). StackOverflow is not helpful => StackOverflow helpful 

谁能请解释为什么这些否定词通常被认为是停止的话吗?

+1

这个问题让人觉得它会在更专业的网站上得到更好的答案,因为它是关于软件背后的理论,而不是如何编程。也许http://datascience.stackexchange.com/? – IMSoP

+4

我投票结束这个问题,因为它已被手动迁移到不同的堆栈交换:http://datascience.stackexchange.com/questions/15765/nlp-why-is-not-a-stop-word – IMSoP

+0

是同意,只是不能自己关闭...所以回答我自己的问题,并试图解决它。但是我不能直到明天 –

回答