金融新闻标题分类到正面/负面类

我正在做一个小型的研究项目，我应该尝试将正面和负面的类拆分财经新闻文章标题。对于分类我使用SVM方法。主要问题是我现在看到它不能为ML生成很多功能。新闻文章包含很多命名实体和其他“垃圾”元素（从我的角度来看当然）。金融新闻标题分类到正面/负面类

能否请您提供可用于ML培训的ML功能？当前结果为：precision = 0.6，recall = 0.8

谢谢

来源

2012-07-17 ashingel

这些功能如何？在词语文章标题的

长度
平均字长
在“坏”的话，例如字典中的单词数字典= {可怕，可怕，低迷，破产......}。你可能必须自己生成这本字典。
该字典中的单词与句子中的总单词的比率
类似于3，但是在“良好”单词词典中的单词数量，例如，字典= {福音，蓬勃发展，就业，...}
类似5，而是用“好” -word字典
文章的发表时间
日期文章的发表
介质通过它的发布时间（你必须做一些主观分类）
某些标点符号，如感叹号

的计数如果你允许访问实际的文章，你可以使用表面特征fr在实际的文章中，例如文章的总篇幅，甚至是答复的数量或反对文章的水平。你也可以在网上查看许多其他字典，例如奥格登的850基础英语字典，看看坏的/好的文章是否可能从中提取很多单词。我同意为了这个目的想出很长的清单（例如100个特征）有用的特征似乎很困难。

来源

2012-07-17 17:20:45 TakeS

@D Seita。谢谢您的意见。一些想法看起来很有趣。我会尝试应用它们。 – ashingel 2012-07-18 19:44:54

这项任务根本不重要。

直接的方法是找到或创建一个训练集。这是一组带有正面新闻的标题和一组带负面新闻的标题。您将训练集转换为TF/IDF表示形式，然后训练线性SVM以分离两个类。根据你的训练集的质量和大小，你可以获得一些体面的 - 不确定0.7的盈亏平衡点。

然后，为了获得更好的结果，你需要去NLP方法。尝试使用词性标注器来识别形容词（微不足道），然后使用一些情感数据库（如SentiWordNet）对它们进行评分。

上有Sentiment Analysis by Bo Pang and Lillian李应阅读很好的概括：

来源

2012-07-17 23:28:04 iliasfl

感谢您的意见。不幸的是，在这一刻，语料库是非常不平衡的，我正在等待这方面的改进。此外，我已经将POS功能与word的根结合使用。也使用了一个简单的情感词汇。 – ashingel 2012-07-18 19:36:27

iliasfl是正确的，这不是一个简单的任务。

我会用一包字的方法，但首先使用POS标记器来标记标题中的每个单词。然后，您可以删除所有已命名的实体 - 正如您正确指出的那样不会影响情绪。换句话说应该频繁出现（如果你的数据集足够大），可以将它们从极化中消除，无论是正向还是负向。

如果你仍然没有接近，可以仅仅从标签数据中选择形容词和动词，因为它们是倾向于表达情感或情绪的词。

我不会因为精度和召回数字而过于沮丧，但F值为0.8或更高的实际上相当不错。

来源

2012-07-18 16:55:29

是的。我已经将POS标签应用于单词并删除了命名实体.BTW可能有意义将名称实体替换为“公司”，“位置”实体等值。稍后再尝试。此外，在这一刻，我只使用形容词，动词和副词作为特征，而忽略名词，当它们不是情感词时。 F现在也在0.8左右。 – ashingel 2012-07-18 19:43:20

金融新闻标题分类到正面/负面类

回答

相关问题