我正在做一个小型的研究项目,我应该尝试将正面和负面的类拆分财经新闻文章标题。对于分类我使用SVM方法。主要问题是我现在看到它不能为ML生成很多功能。新闻文章包含很多命名实体和其他“垃圾”元素(从我的角度来看当然)。金融新闻标题分类到正面/负面类
能否请您提供可用于ML培训的ML功能?当前结果为:precision = 0.6,recall = 0.8
谢谢
我正在做一个小型的研究项目,我应该尝试将正面和负面的类拆分财经新闻文章标题。对于分类我使用SVM方法。主要问题是我现在看到它不能为ML生成很多功能。新闻文章包含很多命名实体和其他“垃圾”元素(从我的角度来看当然)。金融新闻标题分类到正面/负面类
能否请您提供可用于ML培训的ML功能?当前结果为:precision = 0.6,recall = 0.8
谢谢
这些功能如何?在词语文章标题的
的计数如果你允许访问实际的文章,你可以使用表面特征fr在实际的文章中,例如文章的总篇幅,甚至是答复的数量或反对文章的水平。你也可以在网上查看许多其他字典,例如奥格登的850基础英语字典,看看坏的/好的文章是否可能从中提取很多单词。我同意为了这个目的想出很长的清单(例如100个特征)有用的特征似乎很困难。
这项任务根本不重要。
直接的方法是找到或创建一个训练集。这是一组带有正面新闻的标题和一组带负面新闻的标题。 您将训练集转换为TF/IDF表示形式,然后训练线性SVM以分离两个类。根据你的训练集的质量和大小,你可以获得一些体面的 - 不确定0.7的盈亏平衡点。
然后,为了获得更好的结果,你需要去NLP方法。尝试使用词性标注器来识别形容词(微不足道),然后使用一些情感数据库(如SentiWordNet)对它们进行评分。
上有Sentiment Analysis by Bo Pang and Lillian李应阅读很好的概括:
感谢您的意见。不幸的是,在这一刻,语料库是非常不平衡的,我正在等待这方面的改进。此外,我已经将POS功能与word的根结合使用。也使用了一个简单的情感词汇。 – ashingel 2012-07-18 19:36:27
iliasfl是正确的,这不是一个简单的任务。
我会用一包字的方法,但首先使用POS标记器来标记标题中的每个单词。然后,您可以删除所有已命名的实体 - 正如您正确指出的那样不会影响情绪。换句话说应该频繁出现(如果你的数据集足够大),可以将它们从极化中消除,无论是正向还是负向。
如果你仍然没有接近,可以仅仅从标签数据中选择形容词和动词,因为它们是倾向于表达情感或情绪的词。
我不会因为精度和召回数字而过于沮丧,但F值为0.8或更高的实际上相当不错。
是的。我已经将POS标签应用于单词并删除了命名实体.BTW可能有意义将名称实体替换为“公司”,“位置”实体等值。稍后再尝试。此外,在这一刻,我只使用形容词,动词和副词作为特征,而忽略名词,当它们不是情感词时。 F现在也在0.8左右。 – ashingel 2012-07-18 19:43:20
@D Seita。谢谢您的意见。一些想法看起来很有趣。我会尝试应用它们。 – ashingel 2012-07-18 19:44:54