1
我已阅读此处给出的详细说明 - http://nlp.stanford.edu/software/crf-faq.shtml#a根据.prop文件根据标记的输入文件对模型进行了培训。但文章says-stanfordnlp - 将空格分隔的单词作为斯坦福NER模型生成的单个标记进行训练
You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.
我的文本语料库有一些空格分隔的单词它们都结合起来形成一个令牌,而不是一个字。例如,“赖特州立大学”是一个单一的标志,尽管赖特,州立大学是个体实体。我想用上面的标记生成一个模型。该文章指出,生成模型的输入文件应该以制表符分隔的单词形式给出,第一列是标记,第二列是标签。我怎样才能做到这一点?