我有一个要求,从给定的文本中检测公司名称。我已经训练了CRFClassifier,以及我的训练数据和宪报数据。在训练分类器后,当我使用测试数据时,要识别公司它没有正确检测。如果我给出了公司名称,这是培训数据的一部分,它能够识别,如果我给出公司名称是公报文件的一部分,它不能识别这些实体。你能帮助我吗?我可以如何进一步做出正确的方向来识别实体。NER承认自定义实体
属性的文件,我使用的是这个样子的
trainFile =培训data.tsv
serializeTo =自定义分类,model.ser.gz
地图=字= 0,回答= 1
useClassFeature =真
useWord =真
useNGrams =真
noMidNGrams =真
maxNGramLeng = 6
usePrev =真
useNext =真
useSequences =真
usePrevSequences =真
maxLe FT = 1个
useTypeSeqs =真
useTypeSeqs2 =真
useTypeySequences =真
wordShape = chris2useLC
useDisjunctive =真
useGazettes =真
公报=公报。TXT
cleanGazette =真
样本训练数据文件
华宝公司
平公司
为O
同意Ø
至O
获取Ø
北Ø
卡罗莱纳州Ø
- Ø
O类
服务Ø
Gazzette文件数据文件
ACON公司
投资公司
LLS公司
邮报公司
橡公司
能源公司
投资公司
美林公司
证券公司
国际公司
永恒之塔公司
公司直接
新加坡公司