2017-07-17 109 views
0

我需要在HTML文档中标记部分文本。但是,它主要由日期,公司名称,地址等形式的文本组成。我打算使用CRF(sklearn-crfsuite)培训无句法界限的CRF

我的问题是难以将数据集划分为句子。我们能训练一个没有句法边界的CRF模型吗? CRFSuite或sklearn-crfsuite的教程不会谈论这个。

如果没有句子分割就无法完成,关于如何将这些文本分成句子的任何提示?

的数据是这样的:(我不能共享的实际数据) enter image description here

回答