2012-07-17 100 views
2

我正在做一个小型的研究项目,我应该尝试将正面和负面的类拆分财经新闻文章标题。对于分类我使用SVM方法。主要问题是我现在看到它不能为ML生成很多功能。新闻文章包含很多命名实体和其他“垃圾”元素(从我的角度来看当然)。金融新闻标题分类到正面/负面类

能否请您提供可用于ML培训的ML功能?当前结果为:precision = 0.6,recall = 0.8

谢谢

回答

1

这些功能如何?在词语文章标题的

  1. 长度
  2. 平均字长
  3. 在“坏”的话,例如字典中的单词数字典= {可怕,可怕,低迷,破产......}。你可能必须自己生成这本字典。
  4. 该字典中的单词与句子中的总单词的比率
  5. 类似于3,但是在“良好”单词词典中的单词数量,例如,字典= {福音,蓬勃发展,就业,...}
  6. 类似5,而是用“好” -word字典
  7. 文章的发表时间
  8. 日期文章的发表
  9. 介质通过它的发布时间(你必须做一些主观分类)
  10. 某些标点符号,如感叹号

的计数如果你允许访问实际的文章,你可以使用表面特征fr在实际的文章中,例如文章的总篇幅,甚至是答复的数量或反对文章的水平。你也可以在网上查看许多其他字典,例如奥格登的850基础英语字典,看看坏的/好的文章是否可能从中提取很多单词。我同意为了这个目的想出很长的清单(例如100个特征)有用的特征似乎很困难。

+0

@D Seita。谢谢您的意见。一些想法看起来很有趣。我会尝试应用它们。 – ashingel 2012-07-18 19:44:54

2

这项任务根本不重要。

直接的方法是找到或创建一个训练集。这是一组带有正面新闻的标题和一组带负面新闻的标题。 您将训练集转换为TF/IDF表示形式,然后训练线性SVM以分离两个类。根据你的训练集的质量和大小,你可以获得一些体面的 - 不确定0.7的盈亏平衡点。

然后,为了获得更好的结果,你需要去NLP方法。尝试使用词性标注器来识别形容词(微不足道),然后使用一些情感数据库(如SentiWordNet)对它们进行评分。

上有Sentiment Analysis by Bo Pang and Lillian李应阅读很好的概括:

+0

感谢您的意见。不幸的是,在这一刻,语料库是非常不平衡的,我正在等待这方面的改进。此外,我已经将POS功能与word的根结合使用。也使用了一个简单的情感词汇。 – ashingel 2012-07-18 19:36:27

0

iliasfl是正确的,这不是一个简单的任务。

我会用一包字的方法,但首先使用POS标记器来标记标题中的每个单词。然后,您可以删除所有已命名的实体 - 正如您正确指出的那样不会影响情绪。换句话说应该频繁出现(如果你的数据集足够大),可以将它们从极化中消除,无论是正向还是负向。

如果你仍然没有接近,可以仅仅从标签数据中选择形容词和动词,因为它们是倾向于表达情感或情绪的词。

我不会因为精度和召回数字而过于沮丧,但F值为0.8或更高的实际上相当不错。

+0

是的。我已经将POS标签应用于单词并删除了命名实体.BTW可能有意义将名称实体替换为“公司”,“位置”实体等值。稍后再尝试。此外,在这一刻,我只使用形容词,动词和副词作为特征,而忽略名词,当它们不是情感词时。 F现在也在0.8左右。 – ashingel 2012-07-18 19:43:20