0
我需要在HTML文档中标记部分文本。但是,它主要由日期,公司名称,地址等形式的文本组成。我打算使用CRF(sklearn-crfsuite)培训无句法界限的CRF
我的问题是难以将数据集划分为句子。我们能训练一个没有句法边界的CRF模型吗? CRFSuite或sklearn-crfsuite的教程不会谈论这个。
如果没有句子分割就无法完成,关于如何将这些文本分成句子的任何提示?
我需要在HTML文档中标记部分文本。但是,它主要由日期,公司名称,地址等形式的文本组成。我打算使用CRF(sklearn-crfsuite)培训无句法界限的CRF
我的问题是难以将数据集划分为句子。我们能训练一个没有句法边界的CRF模型吗? CRFSuite或sklearn-crfsuite的教程不会谈论这个。
如果没有句子分割就无法完成,关于如何将这些文本分成句子的任何提示?
是的,你可以不将输入序列成句子训练 - 只使用一个大的序列的一切。例如,https://github.com/scrapinghub/webstruct用于HTML页面。
句子中的分割序列提供了额外的信息(硬边界),但CRF可以在没有它的情况下工作。另见:https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf。