2014-08-27 57 views
1

我有来自彭博,MarketWatch,CNN等各种金融网站的新闻文章列表。我想根据他们的财务相关性对文章进行分类,以便了解任何财务困境或任何危机是是否涉及。金融新闻机器学习

我使用NLTK开发了一个Python程序,根据它的财务相关性给每篇文章打分。

目前,我正在使用像关键字列表/词典:

  • 市场
  • 金融
  • 损失
  • 贷款等

和检查多少单词从这个列表出现在新闻文章中并保持每个分数,然后添加所有单词分数以获得总分。

同样地,我有列表/金融短语的词汇:从这个

  • 未能与债权人同意
  • 申请破产
  • 文件第11章,等

成绩列表和上面的列表被添加,然后将总体分数分配给作为其相关性的指标的文章。

我想在这个过程中纳入机器学习,并希望将上述方法的已分类新闻文章作为训练集。

请帮助找到最佳算法来实现此目的。

+0

这个问题是更好地在这里问:stats.stackexchange.com(HTTP://统计。 stackexchange.com) – NorthCat 2014-08-27 10:21:15

回答