Twitter的情绪分析技术

我正在做一个关于twitter情绪分析的项目，但是我有一些想法。Twitter的情绪分析技术

由于推文非常短（少于140个字符），文本分析技术最适用的是什么。例如。是否会干扰工作以及在-let的常规文章中？

n-grams呢？推文的简短程度对他们来说是最好的还是最差的？

k-nearest会比词性标记更准确吗？

随着时间的推移，我的自定义twitter数据集会变得不相关/损坏吗？由于twitter和它的信息变化如此之快，这也是我主要关心的问题。

非常感谢您的时间。

PS：你有什么好的twitter情绪数据集？如果定期更新会很好。

来源

2012-12-04 storedope

[sentiment140.com有技术报告]（http://help.sentiment140.com/）描述了他们的方法。它似乎源于同一个作业。下面是一个例子：[使用'stackoverflow'的推文的情感分析]（http://www.sentiment140.com/search？hl = zh_CN＆query = stackoverflow） – jfs

我做了一些课堂作业分析名人的推文和比较他们的相似之处。

你认为最重要的是推文的长度。在140个字符中，很多单词被缩短，或者不寻常的“txt-speech”。所以即使是一个知名的词干，如Porter也会给出一些奇怪的结果。最好保留几乎所有东西，并且只在字数，矢量等之后保持正常。

对于从字推断，n-gram和以下链接是质量推断的重要因素。我只能忍受4克的空间和时间要求，但即使创建简单的2克也有很大的提升。

如果您注意到我之前说过的“几乎所有”。在我只追踪流行的名人鸣叫的情况下，我遇到了很多问题，他们的鸣叫是链接或呼吁他们的活动或赞助商等，所以很大一部分是删除大量的垃圾邮件副本。

对于提取准确的情绪或您寻找的任何措施的方法，我会首先尝试基于朴素贝叶斯的方法。对于基线而言，它很简单并且相对准确。 K-means的表现会相当不错，但请记住，它没有考虑到方差和共同差异，但却是另一个尝试的基准。

希望能提供一些见解。

来源

2012-12-05 00:23:42 enjoylife

我最近根据twitter对电影做了一个分析，以找出有关电影的人们推特，他们喜欢与否的天气。这个链接http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/帮了我很多。此外，我必须收集一系列捷径，一般用于包含情绪的推文。

另外，一个人的推文只能保存到3000（或3.5k不确定？），而你自己的时间轴流也有类似的限制。因此，您可以使用http://topsy.com获取您所选择的主题或主题的推文，并从那里获取特定主题的旧推文进行分析。您可能还需要定期保存关于您未来参考需求的推文，因为推特不会为您节省。

来源

2012-12-12 08:51:57

您可以使用ScraperWiki每天保存Twitter提要，如[this]（https://scraperwiki.com/scrapers/basic_twitter_scraper/）简单示例。 –

Twitter的情绪分析技术

回答

相关问题