计算实体在NLP中的置信度得分命名实体识别

我正在从文档（pdf）中进行命名实体提取。每个PDF包含组实体（近16个不同类型的实体）计算实体在NLP中的置信度得分命名实体识别

这里是我的步骤，构建NLP和ML车型：

直到现在一切顺利。但问题在于下一步。 :(

使用SOFTMAX分类输入的神经网络模型从这个模型得到的分数。每一个字。

但我的问题是，我的实体包含最少3个字。我如何计算置信度生成的实体。

现在我全光照g P(entity) = P(w1)*P(w2)*(w3)如果实体有三个单词。

请帮助我。这种方法一直没有意义。

假设，如果模型预测实体中只有两个单词，那么实体信心将为P(entity) = P(w1)*P(w2)。

而且，如果模型只预测实体中的一个词，那么P(entity) = P(w1)。 :(

如果您需要归一化数字（0-1）并且假设P（w）具有0（0），为什么不是P（实体）= P（w1）+ P（w2）+ P（w3）？ -1范围使其成为：P（实体）=（P（w1）+ P（w2）+ P（w3））/ 3

为了获得更好的分数，你应该计算每个单词的信息内容。字应该贡献更少：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-6-S1-S21

2017-10-25 17:12:11 FCouto

回答