2012-04-06 117 views
3

我想识别特定字段中的命名实体(例如棒球)。我知道有像斯坦福,LingPipe,AlchemyAPI这样的工具,我已经做了一些测试。但是我想让他们成为领域特定的,正如我前面提到的那样。这怎么可能?聚焦命名实体识别(NER)?

+0

按'特定领域',你的意思是特定的领域或领域?将NER训练到特定域的特定语料库可能是一种解决方案。 – 2012-04-07 03:04:47

+0

@Kenston我的错误。是的,我的意思是专注于特定的领域。例如,如果我训练棒球运动员姓名的NER分类器,它是否可以继续只接受该域名,而不接受政治家或其他名字?他们有这种我想要的行为吗? – KillBill 2012-04-07 06:58:16

+0

我认为这取决于使用的功能。如果特征更多地出现在案例中(标题或大写),那么政治家的名字可能会被包括在内。有一个地名词典(玩家名单列表)不适合你吗? – 2012-04-07 09:45:48

回答

3

一种方法可能是

  1. 使用一般(非特定领域)工具来检测人的名字

  2. 使用主题分类过滤掉不属于文本在域

如果数据集的总大小是suf而且提取器和分类器的准确性还不够好,您可以使用结果获取与所涉及的域(例如,)密切相关的人名的列表。通过将结果限制在特定领域文本中比在其他文本中更频繁地提及的结果。

在棒球的情况下,这应该是获得与棒球相关的人列表的相当好的方式。但是,只有获得棒球球员名单的列表并不是一个好方法。对于后者,有必要分析提及名称的确切背景以及有关他们的事情;但也许这不是必需的。

编辑:通过主题分类我的意思是一样的其他人可能是指仅仅作为分类文档分类域分类或类似。随时可用的工具包括Python-NLTK中的分类器(请参阅here的示例)和LingPipe中的分类器(请参阅here)。

+0

我不知道主题分类器。你可以向我推荐一个链接吗?这就是我想要做的:为了我的研究,我正在构建一个专注的网络爬虫,它使用NE来指导其在给定域(例如棒球)上的抓取。抓取工具可以单独由网元指导,也可以采用基于机器学习的文档分类(现有方法)。我正在想办法做到这一点。请看看我的这个问题-http://stackoverflow.com/questions/10077647/named-entities-as-a-feature-in-text-categorization-以及。我非常感谢您的意见。谢谢。 – KillBill 2012-04-10 05:10:00

+0

@ user601357:我的意思是一个文本分类器,或多或少与您引用为_document classification_的内容相同。无论如何,我已经添加了几个链接。 – jogojapan 2012-04-10 09:51:36

+0

谢谢。我如何将NE纳入文本分类?我现在想到的是计算不同名称实体的数量(PERS = x,LOC = y,ORG = z),并将其用作正常文本分类功能的功能。你对此有何看法? – KillBill 2012-04-10 10:22:21

0

查看smile-ner.appspot.com,其中涵盖250多个类别。特别是,它涵盖了很多运动项目的人员/团队/俱乐部。可能对你的目的有用。

相关问题