2017-05-27 64 views
1

我试图用openNLP上可在这里moview审核数据集上的情感分析工作:http://www.cs.cornell.edu/people/pabo/movie-review-data/(极性数据集V2.0)中的数据转换openNLP兼容培训格式

我如何可以训练文档分类模型,利用该openNLP数据集?

它由相当数量的评论组成,已被列为不同的文件夹集。

openNLP需要输入一个文件,每个检查都带有一个带有类别标签前缀的新行。我正在寻找一种简单的方法将此数据集转换为openNLP兼容格式。

回答

1

OpenNLP目前不支持Movie Review格式。您可以创建一个脚本,将转换为它Training Format,那会看起来像这样的事情:

neg A negative tokenized text. Remove line breaks. 
pos A positive tokenized text. Remove line breaks. 

但提前OpenNLP文档分类程序是不完美的FOT的情感分析任务。目前正在使用OpenNLP在USCDataScience/SentimentAnalysisParser开发一个情绪分析组件。

+0

我正在使用类似的方法使用java.nio.File代替。 – rupaj

0

使用Java,我转换训练数据集到openNLP兼容训练格式即分类数据集并将其保存到磁盘上如一个文件:

  • 负电影没有达到预期
  • 积极电影是好的

使用上面生成的训练集,经过训练的openNLP文档分类器模型。

要避免每次执行时的训练模型,请将训练好的模型保存在磁盘上。