2017-07-04 85 views
1

我使用OpenNlp的训练API识别了我教授的技能,训练了一个含有超过一百万个句子的自定义NER模型。在测试过程中,我发现识别技能和技能子串的模型。例如,我已经教了一门技能'Core Java',如果句子有'Core'这个词,那么我的模型会将其识别为一项技能。我想避免这种情况。如果整个单词出现在测试语句中,我只想识别出'Core Java'这个单词。自定义NER模型提取用于训练的关键字的子串

如何提高我的自定义模型为上述结果?

回答

1

听起来像你需要提供更多的训练实例。

如果单词Core出现在训练数据中的唯一一次是因为那句Core Java的一部分,你的模型可能会发现,Core是100%概率的技能名称的一部分,并根据它知道ISN”错了。为了解决这个问题,在无关的情况下添加更多的训练数据。一些例子:

He threw away the apple core. 
Core skills in math include addition and subtraction. 
The core of the application is implemented in C for speed. 
+0

谢谢,这真的很有帮助。 – MAK