2017-08-07 107 views
0

我有一个要求,从给定的文本中检测公司名称。我已经训练了CRFClassifier,以及我的训练数据和宪报数据。在训练分类器后,当我使用测试数据时,要识别公司它没有正确检测。如果我给出了公司名称,这是培训数据的一部分,它能够识别,如果我给出公司名称是公报文件的一部分,它不能识别这些实体。你能帮助我吗?我可以如何进一步做出正确的方向来识别实体。NER承认自定义实体

属性的文件,我使用的是这个样子的

trainFile =培训data.tsv

serializeTo =自定义分类,model.ser.gz

地图=字= 0,回答= 1

useClassFeature =真

useWord =真

useNGrams =真

noMidNGrams =真

maxNGramLeng = 6

usePrev =真

useNext =真

useSequences =真

usePrevSequences =真

maxLe FT = 1个

useTypeSeqs =真

useTypeSeqs2 =真

useTypeySequences =真

wordShape = chris2useLC

useDisjunctive =真

useGazettes =真

公报=公报。TXT

cleanGazette =真

样本训练数据文件

华宝公司

平公司

为O

同意Ø

至O

获取Ø

北Ø

卡罗莱纳州Ø

  • Ø

O类

服务Ø

Gazzette文件数据文件

ACON公司

投资公司

LLS公司

邮报公司

橡公司

能源公司

投资公司

美林公司

证券公司

国际公司

永恒之塔公司

公司直接

新加坡公司

回答