1
我有来自彭博,MarketWatch,CNN等各种金融网站的新闻文章列表。我想根据他们的财务相关性对文章进行分类,以便了解任何财务困境或任何危机是是否涉及。金融新闻机器学习
我使用NLTK开发了一个Python程序,根据它的财务相关性给每篇文章打分。
目前,我正在使用像关键字列表/词典:
- 市场
- 金融
- 损失
- 贷款等
和检查多少单词从这个列表出现在新闻文章中并保持每个分数,然后添加所有单词分数以获得总分。
同样地,我有列表/金融短语的词汇:从这个
- 未能与债权人同意
- 申请破产
- 文件第11章,等
成绩列表和上面的列表被添加,然后将总体分数分配给作为其相关性的指标的文章。
我想在这个过程中纳入机器学习,并希望将上述方法的已分类新闻文章作为训练集。
请帮助找到最佳算法来实现此目的。
这个问题是更好地在这里问:stats.stackexchange.com(HTTP://统计。 stackexchange.com) – NorthCat 2014-08-27 10:21:15