我试图用openNLP上可在这里moview审核数据集上的情感分析工作:http://www.cs.cornell.edu/people/pabo/movie-review-data/(极性数据集V2.0)中的数据转换openNLP兼容培训格式
我如何可以训练文档分类模型,利用该openNLP数据集?
它由相当数量的评论组成,已被列为不同的文件夹集。
openNLP需要输入一个文件,每个检查都带有一个带有类别标签前缀的新行。我正在寻找一种简单的方法将此数据集转换为openNLP兼容格式。
我试图用openNLP上可在这里moview审核数据集上的情感分析工作:http://www.cs.cornell.edu/people/pabo/movie-review-data/(极性数据集V2.0)中的数据转换openNLP兼容培训格式
我如何可以训练文档分类模型,利用该openNLP数据集?
它由相当数量的评论组成,已被列为不同的文件夹集。
openNLP需要输入一个文件,每个检查都带有一个带有类别标签前缀的新行。我正在寻找一种简单的方法将此数据集转换为openNLP兼容格式。
OpenNLP目前不支持Movie Review格式。您可以创建一个脚本,将转换为它Training Format,那会看起来像这样的事情:
neg A negative tokenized text. Remove line breaks.
pos A positive tokenized text. Remove line breaks.
但提前OpenNLP文档分类程序是不完美的FOT的情感分析任务。目前正在使用OpenNLP在USCDataScience/SentimentAnalysisParser开发一个情绪分析组件。
使用Java,我转换训练数据集到openNLP兼容训练格式即分类数据集并将其保存到磁盘上如一个文件:
使用上面生成的训练集,经过训练的openNLP文档分类器模型。
要避免每次执行时的训练模型,请将训练好的模型保存在磁盘上。
我正在使用类似的方法使用java.nio.File代替。 – rupaj