2017-08-25 92 views
0

我目前正在进行情绪分析项目,第一次将使用推文作为输入。这些推文的主题是体育,目前我正在预处理数据并试图为它们分配极性。通过将这些情感计数的许多不同的方式是混淆了我一点,因此我有一些问题:问:情绪分析:鸣叫极性不太受欢迎的科目

  1. 这个线程(Training data for sentiment analysis)列表中的一些语料库,但他们都不适用于运动。我可以使用其中之一来训练适用于我的病例的分类器吗?或者是否会使用不相关的语料库来歪曲结果?

  2. 依靠这个主题的词典(例如上面的链接)能够取得好的结果吗?

  3. 我应该查询我的数据库并手动注释推文以训练分类器吗?

感谢

回答

0
  1. 一般情感分析将始终使用通用语料库,因为有些领域有专门语言不会被占的影响。但是,它可能不会显着影响您的结果,因为像badgreat这样的字会严重偏振,而不考虑您的域名区域。

  2. 是的,但是如果您正在实施一个产品,您希望创建/找到更适合您的目标域语言语料库的语料库,并确保结果在统计学上不存在显着差异。

  3. 不是吗?如果你发现一个重量与语言相关的语料库,你可以在这个语料上训练一个分类器。否则,你将不得不自己确定重量。