2017-03-02 116 views
0

我是新来的NLP和情绪分析领域特别。我的目标是培训斯坦福CoreNLP情绪模型。我知道作为培训数据提供的句子应该采用以下格式。斯坦福corenlp情绪训练集

(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .))) 

我也知道我可以用我自己的训练数据使用以下命令创建情感训练模型。

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath  dev.txt -train -model model.ser.gz 

我的问题是,我有权访问用来训练模型的训练数据集吗?如果是,那我可以在哪里找到它? 另外,有没有一种方法可以将新句子附加到原始训练数据集并创建火车模型?

+0

参见[如何训练斯坦福NLP情感分析工具(http://stackoverflow.com/questions/22586658/how-to-train-the-stanford-nlp-情感分析工具)。 –

回答

0

的数据,请访问:http://nlp.stanford.edu/sentiment/

如果你只需要创建一个新的数据具有相同的格式,你可以把文件的目录,并设置-trainPath到该目录设置。它将加载该目录中的所有文件并对其进行训练。

样本命令:

java -Xmx8g edu.stanford.nlp.sentiment.SentimentTraining -train -numHid 25 -trainPath trees/training-data/ -model model.ser.gz