2010-11-15 172 views
35

我想知道是否有人知道我可以在哪里获得正面和负面词的字典。我正在研究情绪分析,这是它的一个关键部分。情绪分析词典

回答

32

匹兹堡大学的Sentiment Lexicon可能就是你以后的样子。这是一个约8000字的正词/中性词/负情绪词汇。它在this paper中有更详细的描述,并在GPL下发布。

6

This paper from 2002描述了一种算法,用于仅使用两个词作为种子集自动从文本样本中导出这样的词典。

+3

的问题是,这种方法使用AltaVista的点击来计算PMI-IR,所以我不认为这是最佳的人谁愿意上手。此外,这是一种无监督的方法,与督导方法相比,其结果仍不令人兴奋。 – 2015-07-14 07:19:05

19

稍后我会注意到字典对情感分析的贡献有限。一些情感承载句子不包含任何“情感”单词 - 例如“读这本书”在书评中可能是正面的,而在电影评论中是负面的。 类似地,在描述丰田的休假制度时,情绪词“不可预知”可能在惊悚片中是积极的,但是是否定的。

,并有更多...

+0

真的好点。幸运的是,我只处理某些不会使用俚语的新闻来源,一般只是陈述事实。尽管如此,仍然绝对值得担心,谢谢。 – user387049 2011-02-17 23:35:29

+2

我认为当使用没有上下文的字典时,希望是对于单个句子可能存在一定量的噪音(错误分类),但总体上将有足够的信号是有意义的。不过,我不确定如何用统计学的严谨来测试这个希望。 – mcduffee 2014-08-08 16:24:34

2

AFINN你可以在这里找到,并创建动态。就像每当有未知的+ ve词语来添加+1。就像香蕉是新的+ ve词和出现两次然后它会变成+2。

随着越来越多的文章和数据你craw字典会变得更强!

+3

该文件实际上是一个玩具文件,用于为课程作业创建。在我看来,将它用于实际工作将是一个错误。 – mcduffee 2014-08-08 16:28:21

+0

@mcduffee精心制作? – jbird 2016-01-18 14:50:39

+0

@jbird我不知道我可以添加什么。该文件是为类分配创建的,其中要评估的文本是根据列表中的单词定制的。它缺少很多很多单词(整个列表少于2500个单词)。试图将其与未被定制到列表中的单词相匹配的文本使用它,我恐怕会导致比较完整的列表所提供的情绪评估不准确。 – mcduffee 2016-01-20 00:57:48

16
0

您可以使用维达情感词典

from nltk.sentiment.vader import SentimentIntensityAnalyzer 

sentence='APPle is good for health' 
sid = SentimentIntensityAnalyzer() 
ss = sid.polarity_scores(sentence) 
print(ss) 

它会给你句子的极性。

输出:

{'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0}