2016-12-05 62 views
-1
准备训练语料为CRF模型

我需要在以下格式如何使用CRFSuite

(u'Melbourne', u'NP', u'B-LOC'), 
(u'(', u'Fpa', u'O'), 
(u'Australia', u'NP', u'B-LOC'), 
(u')', u'Fpt', u'O'), 
(u',', u'Fc', u'O'), 

我有的只是txt文件,我需要这个数据CRF模型NER任务数据。 我打算为python使用crf套件,但不能很好理解如何标记训练数据。 我可以pos标记它,但如何添加命名实体,因为我需要用2个自定义标签来标记训练数据。

回答

2

如果你想训练一个CRF模型,那么你需要注释数据;对于一些任务可以依赖现有的语料库,但是如果你的任务是新的,那么你将不得不自己注释实体。有些工具可以帮助你,例如看看http://brat.nlplab.org/GATE也有内置的注释工具。

POS标签通常用作功能,但它们不是严格要求的(您也应该使用许多其他功能)。

+0

是的,我的任务是特定领域的,谢谢,我会尝试这些工具 –

1

小子是来注释新数据集的绝佳方式。注释完成后,需要将Brat输出的Standoff格式转换为Stanford NER接受的格式。