Q

培训无句法界限的CRF

2017-07-17 109 views 0 likes

0

我需要在HTML文档中标记部分文本。但是，它主要由日期，公司名称，地址等形式的文本组成。我打算使用CRF（sklearn-crfsuite）培训无句法界限的CRF

我的问题是难以将数据集划分为句子。我们能训练一个没有句法边界的CRF模型吗？ CRFSuite或sklearn-crfsuite的教程不会谈论这个。

如果没有句子分割就无法完成，关于如何将这些文本分成句子的任何提示？

的数据是这样的：（我不能共享的实际数据）

2017-07-17 sir_osthara

A

回答

0

是的，你可以不将输入序列成句子训练 - 只使用一个大的序列的一切。例如，https://github.com/scrapinghub/webstruct用于HTML页面。

句子中的分割序列提供了额外的信息（硬边界），但CRF可以在没有它的情况下工作。另见：https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf。

2017-10-16 08:16:01

相关问题