2015-10-18 68 views
2

如何使用地名词典或词典作为CRF++的功能?如何在crf ++中将地名词典或词典表示为特征?

要说明一下:假设我想要做的人名NER和我有一个地名(或字典),包含常见的人名,我想用这个地名作为输入CRF ++,我该怎么做?

我正在使用条件随机字段包crf ++来执行命名实体识别任务。 我知道如何在crf ++中表示一些常用的功能。例如,如果我们想要使用大写字母作为特征,我们可以在crf的特征模板中添加一个单独的列,指示单词是否大写。

+0

你应该看看这个:http://stackoverflow.com/a/43840823/2238884 – user2238884

回答

5

您可以制作一个新功能,指示令牌是否位于字典/视频转发器中。只需检查设置的会员资格,并设置Gazeteer功能为1或0.

+0

你的意思是在训练? – DehengYe

+0

我可能知道更多细节吗? – DehengYe

+2

在训练和标记过程中,特征提取必须相同,否则您不会提供您期望的模型。与在功能模板中添加单独列以指示单词是否大写的方式相同,您可以添加另一列来说明给定单词是否存在于您的注视器/词典中。 让我们假设一个只包含'约翰'和'玛丽'的凝视者。 使用序列“John爱玛丽”的两个特征(大写,InGazeeter),你会得到(1,0),(0,0),(0,1)。当然,真正的模型会使用更多种功能。 – HugoMailhot