Wapiti/CRF ++数据集格式

为了安全起见，并看到辛勤工作的成果，需要正确格式化数据的哪些功能？Wapiti/CRF ++数据集格式

我有这个dataset和template，手动标记为NER。

就CRF ++的培训而言，使用生成的模型进行测试会得到0%正确的结果。使用Wapiti的结果相同。

问题，应该修改模板文件吗？或者也需要在训练数据集中添加POS标签。

此外，如果模型应该打折字套管而标记，应在训练数据集反映其全部，使得下壳体被执行。但是它会不会影响某些从大写形式中衍生出来的句子。
在这方面有点不清楚。

PS - 针对像http://cliff.mediameter.org/这样的模型，其中NER标记为与套管无关。但不能使用他们的模型。

2017-04-14 arjun

我有训练的模型，并想测试它。请问您还可以分享您的测试数据吗？您的Github账户有500多个回购券，我找不到合适的回扣。 – user2238884

训练数据太小（几乎是47个句子），格式也不正确，因为句子以空行结束，但是以空格 - 制表符结束，这可能会使crf ++将整个文件作为单个文件学习句子。

此外，您可以分享您的测试数据？

2017-05-08 16:32:27 user2238884

回答