2016-11-13 77 views
1

需要一些与火花音乐上的音乐情绪分析有关的指导。与音乐相关的Twitter数据的情感分析功能

我试图在Twitter数据进行情感分析相关音乐鸣叫。经过大量网络搜索之后,我了解了如何使用'tweepy'python api获取推文,并且意识到我可以使用'朴素贝叶斯分类器'来最终对推文进行分类。现在我对如何定义这个分类的特征感到困惑,我应该定义至少500个特征。所以这是我的问题。我不想使用像'textblob'这样已经可用的API来查找推文的情绪。

1)任何人都可以给的,我们可以使用分类音乐相关的微博功能的一些例子吗? [我们可以使用带有快乐笑脸的tweet作为正面训练集吗?如果有,这些鸣叫功能的话对我的分类?]

2)我们如何生成此分类的训练集?

3)如果我要筛选音乐相关的鸣叫鸣叫,我可以用布隆过滤器来实现呢?

4)什么是数据我可以通过tweepy API获得的大小呢?

如果我的理解有问题,请纠正我。

回答

2

由于情绪分析进行监督的任务,你应该有训练集,(和测试)。在训练集中,您需要经常由人类(通常称为专家)给出的标签(如果情感分析为正面,负面)。不存在神奇数量的训练集实例(我使用1k5记录)。但是如果您需要科学证据,您应该根据训练集的大小分析模型的均方误差(MSE)。

1)最常用的方法是TF-IDF。它排名最好的特征(也包括微笑和其他符号)。你只需要设置功能的数量。同样,也有没有最好号码,你应该做的测试调整模型

2)你需要一个训练用标签(正或负),以每鸣叫设置。一般来说,它是由人类注释者获得的。

3)我从来没有使用过滤器。

4)通常情况下,Tweet api只给出所有推文的1-2%。我想Tweepy不能给你比它更多的东西。

我希望这可以帮助你。