2012-12-04 33 views
4

我正在做一个关于twitter情绪分析的项目,但是我有一些想法。Twitter的情绪分析技术

由于推文非常短(少于140个字符),文本分析技术最适用的是什么。例如。是否会干扰工作以及在-let的常规文章中?

n-grams呢?推文的简短程度对他们来说是最好的还是最差的?

k-nearest会比词性标记更准确吗?

随着时间的推移,我的自定义twitter数据集会变得不相关/损坏吗?由于twitter和它的信息变化如此之快,这也是我主要关心的问题。

非常感谢您的时间。

PS:你有什么好的twitter情绪数据集?如果定期更新会很好。

+2

[sentiment140.com有技术报告](http://help.sentiment140.com/)描述了他们的方法。它似乎源于同一个作业。下面是一个例子:[使用'stackoverflow'的推文的情感分析](http://www.sentiment140.com/search?hl = zh_CN&query = stackoverflow) – jfs

回答

5

我做了一些课堂作业分析名人的推文和比较他们的相似之处。

你认为最重要的是推文的长度。在140个字符中,很多单词被缩短,或者不寻常的“txt-speech”。所以即使是一个知名的词干,如Porter也会给出一些奇怪的结果。最好保留几乎所有东西,并且只在字数,矢量等之后保持正常。

对于从字推断,n-gram和以下链接是质量推断的重要因素。我只能忍受4克的空间和时间要求,但即使创建简单的2克也有很大的提升。

如果您注意到我之前说过的“几乎所有”。在我只追踪流行的名人鸣叫的情况下,我遇到了很多问题,他们的鸣叫是链接或呼吁他们的活动或赞助商等,所以很大一部分是删除大量的垃圾邮件副本。

对于提取准确的情绪或您寻找的任何措施的方法,我会首先尝试基于朴素贝叶斯的方法。对于基线而言,它很简单并且相对准确。 K-means的表现会相当不错,但请记住,它没有考虑到方差和共同差异,但却是另一个尝试的基准。

希望能提供一些见解。

2

我最近根据twitter对电影做了一个分析,以找出有关电影的人们推特,他们喜欢与否的天气。这个链接http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/帮了我很多。此外,我必须收集一系列捷径,一般用于包含情绪的推文。

另外,一个人的推文只能保存到3000(或3.5k不确定?),而你自己的时间轴流也有类似的限制。因此,您可以使用http://topsy.com获取您所选择的主题或主题的推文,并从那里获取特定主题的旧推文进行分析。您可能还需要定期保存关于您未来参考需求的推文,因为推特不会为您节省。

:)

+0

您可以使用ScraperWiki每天保存Twitter提要,如[this](https://scraperwiki.com/scrapers/basic_twitter_scraper/)简单示例。 –