2017-04-14 89 views
0

为了安全起见,并看到辛勤工作的成果,需要正确格式化数据的哪些功能?Wapiti/CRF ++数据集格式

我有这个datasettemplate,手动标记为NER。

就CRF ++的培训而言,使用生成的模型进行测试会得到0%正确的结果。使用Wapiti的结果相同。

问题,应该修改模板文件吗?或者也需要在训练数据集中添加POS标签。

此外,如果模型应该打折字套管而标记,应在训练数据集反映其全部,使得下壳体被执行。但是它会不会影响某些从大写形式中衍生出来的句子。
在这方面有点不清楚。

PS - 针对像http://cliff.mediameter.org/这样的模型,其中NER标记为与套管无关。但不能使用他们的模型。

+0

我有训练的模型,并想测试它。 请问您还可以分享您的测试数据吗? 您的Github账户有500多个回购券,我找不到合适的回扣。 – user2238884

回答

0

训练数据太小(几乎是47个句子),格式也不正确,因为句子以空行结束,但是以空格 - 制表符结束,这可能会使crf ++将整个文件作为单个文件学习句子。

试试这个http://paste.ubuntu.com/24537692/

此外,您可以分享您的测试数据?