2016-12-30 77 views
1

我是NLP的新手,最近一直在玩NTLK和Spacy。但是,我找不到在某篇文章中搜索职位的方法(例如:产品经理,首席营销官等)。在使用Spacy或NLTK的文章中搜索职位名称

例如,我有1000篇,我想一切有我感兴趣的工作头衔的文章。

此外,什么实体类型并不职称下跌?我检查https://spacy.io/docs/usage/entity-recognition,并没有看到它在那里。我有计划添加它吗?

感谢。

+0

是的,在你提到的有限范围内的工作职务是某种类型的NE的,但我相信你会知道你在找什么话,或者你想具体的功能,可拍摄 –

+0

职称是一种NP POS标签,通常是ORG相关的实体标签。基本上,这听起来像你想要一个职位的标题。您可能想尝试制作职位列表,并为这些职位提取功能,然后自己制作一个标签。将更好地为您的知识领域工作。 –

回答

2

Spacy NER不支持“职位”实体,如Nathan所述。但是您可以为您的用例创建一个自定义命名实体。这里是官方文档link。你可以找到一步一步的指导,在那里训练Spacy NER。

您需要标记数据来训练您的NER。一般来说,您需要至少4000-5000个火车实例和2000个实例进行测试。您拥有的训练数据越多,NER的表现就越好。

以下是一些示例培训数据。

TRAIN_DATA = [ 
    ('Who is Shaka Khan?', { 
     'entities': [(7, 17, 'PERSON')] 
    }), 
    ('I like London and Berlin.', { 
     'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')] 
    }), 
    ('I work as software engineer.', { 
     'entities': [(9, 18, 'JOBTITLE')] 
    }), 

]