我正在从文档(pdf)中进行命名实体提取。每个PDF包含组实体(近16个不同类型的实体)计算实体在NLP中的置信度得分命名实体识别
这里是我的步骤,构建NLP和ML车型:
Step 1
:分析文档。有近2百万令牌(单词)。用这些词和CBOW方法构建word2vec模型。Step 2
:通过使用word2vec模型,生成向量的单词在douments。Step 3
:根据域,我为培训,验证和测试标记单词(向量)。Step 4
:带标签的数据,训练神经网络模型。Step 5
:模型构建完成后,给出模型的测试数据(单词)。准确度达到85%。
直到现在一切顺利。但问题在于下一步。 :(
Step 6
:现在我想从从训练模型分类的话让与信心得分实体
使用SOFTMAX
分类输入的神经网络模型从这个模型得到的分数。每一个字。
但我的问题是,我的实体包含最少3个字。我如何计算置信度生成的实体。
现在我全光照g P(entity) = P(w1)*P(w2)*(w3)
如果实体有三个单词。
请帮助我。这种方法一直没有意义。
假设,如果模型预测实体中只有两个单词,那么实体信心将为P(entity) = P(w1)*P(w2)
。
而且,如果模型只预测实体中的一个词,那么P(entity) = P(w1)
。 :(