0
我是新来的NLP和情绪分析领域特别。我的目标是培训斯坦福CoreNLP情绪模型。我知道作为培训数据提供的句子应该采用以下格式。斯坦福corenlp情绪训练集
(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))
我也知道我可以用我自己的训练数据使用以下命令创建情感训练模型。
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
我的问题是,我有权访问用来训练模型的训练数据集吗?如果是,那我可以在哪里找到它? 另外,有没有一种方法可以将新句子附加到原始训练数据集并创建火车模型?
参见[如何训练斯坦福NLP情感分析工具(http://stackoverflow.com/questions/22586658/how-to-train-the-stanford-nlp-情感分析工具)。 –