2016-09-18 84 views
1

我已阅读此处给出的详细说明 - http://nlp.stanford.edu/software/crf-faq.shtml#a根据.prop文件根据标记的输入文件对模型进行了培训。但文章says-stanfordnlp - 将空格分隔的单词作为斯坦福NER模型生成的单个标记进行训练

You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems. 

我的文本语料库有一些空格分隔的单词它们都结合起来形成一个令牌,而不是一个字。例如,“赖特州立大学”是一个单一的标志,尽管赖特,州立大学是个体实体。我想用上面的标记生成一个模型。该文章指出,生成模型的输入文件应该以制表符分隔的单词形式给出,第一列是标记,第二列是标签。我怎样才能做到这一点?

回答

0

通常NER训练数据是自然语言句子的形式,其中每个记号具有NER标记。你可能有10,000个句子或更多。

例如:“他参加了赖特州立大学。”

应表示为:

He O 
attended O 
Wright SCHOOL 
State SCHOOL 
University SCHOOL 
. O 

如果没有句子,你只需有应被标记以某种方式字符串列表,它使得使用RegexNER更有意义。

你可以找到如何使用RegexNER这里详尽描述:

http://nlp.stanford.edu/software/regexner.html

相关问题