2017-10-14 324 views
0

我正在从文档(pdf)中进行命名实体提取。每个PDF包含组实体(近16个不同类型的实体)计算实体在NLP中的置信度得分命名实体识别

这里是我的步骤,构建NLP和ML车型:

  • Step 1:分析文档。有近2百万令牌(单词)。用这些词和CBOW方法构建word2vec模型。
  • Step 2:通过使用word2vec模型,生成向量的单词在douments。
  • Step 3:根据域,我为培训,验证和测试标记单词(向量)。
  • Step 4:带标签的数据,训练神经网络模型。
  • Step 5:模型构建完成后,给出模型的测试数据(单词)。准确度达到85%。

直到现在一切顺利。但问题在于下一步。 :(

  • Step 6:现在我想从从训练模型分类的话让与信心得分实体

使用SOFTMAX分类输入的神经网络模型从这个模型得到的分数。每一个字。

但我的问题是,我的实体包含最少3个字。我如何计算置信度生成的实体。

现在我全光照g P(entity) = P(w1)*P(w2)*(w3)如果实体有三个单词。

请帮助我。这种方法一直没有意义。

假设,如果模型预测实体中只有两个单词,那么实体信心将为P(entity) = P(w1)*P(w2)

而且,如果模型只预测实体中的一个词,那么P(entity) = P(w1)。 :(

回答