我想识别特定字段中的命名实体(例如棒球)。我知道有像斯坦福,LingPipe,AlchemyAPI这样的工具,我已经做了一些测试。但是我想让他们成为领域特定的,正如我前面提到的那样。这怎么可能?聚焦命名实体识别(NER)?
回答
一种方法可能是
使用一般(非特定领域)工具来检测人的名字
使用主题分类过滤掉不属于文本在域
如果数据集的总大小是suf而且提取器和分类器的准确性还不够好,您可以使用结果获取与所涉及的域(例如,)密切相关的人名的列表。通过将结果限制在特定领域文本中比在其他文本中更频繁地提及的结果。
在棒球的情况下,这应该是获得与棒球相关的人列表的相当好的方式。但是,只有获得棒球球员名单的列表并不是一个好方法。对于后者,有必要分析提及名称的确切背景以及有关他们的事情;但也许这不是必需的。
编辑:通过主题分类我的意思是一样的其他人可能是指仅仅作为分类,文档分类,域分类或类似。随时可用的工具包括Python-NLTK中的分类器(请参阅here的示例)和LingPipe中的分类器(请参阅here)。
我不知道主题分类器。你可以向我推荐一个链接吗?这就是我想要做的:为了我的研究,我正在构建一个专注的网络爬虫,它使用NE来指导其在给定域(例如棒球)上的抓取。抓取工具可以单独由网元指导,也可以采用基于机器学习的文档分类(现有方法)。我正在想办法做到这一点。请看看我的这个问题-http://stackoverflow.com/questions/10077647/named-entities-as-a-feature-in-text-categorization-以及。我非常感谢您的意见。谢谢。 – KillBill 2012-04-10 05:10:00
@ user601357:我的意思是一个文本分类器,或多或少与您引用为_document classification_的内容相同。无论如何,我已经添加了几个链接。 – jogojapan 2012-04-10 09:51:36
谢谢。我如何将NE纳入文本分类?我现在想到的是计算不同名称实体的数量(PERS = x,LOC = y,ORG = z),并将其用作正常文本分类功能的功能。你对此有何看法? – KillBill 2012-04-10 10:22:21
查看smile-ner.appspot.com,其中涵盖250多个类别。特别是,它涵盖了很多运动项目的人员/团队/俱乐部。可能对你的目的有用。
- 1. 如何创建基于地名索引的命名实体识别(NER)系统?
- 2. 空间使用命名实体识别(NER)的词嵌入如何?
- 3. 为Java命名实体识别库
- 4. StanfordNLP:ArrayIndexOutOfBoundsException用于命名实体识别
- 5. c#命名实体识别器工具
- 6. 使用WEKA命名实体识别
- 7. 在Python中为NLTK命名实体识别。识别NE
- 8. 命名实体识别:对于新/最新实体
- 9. 基于ML的域特定命名的入口识别(NER)?
- 10. 斯坦福NER工具包 - 小写实体识别
- 11. 命名实体识别和解析之间的区别?
- 12. 命名实体识别与Python/PHP的预设名称列表
- 13. 如何用“斯坦福命名实体识别器”(非CoreNLP)对中文进行7类NER
- 14. 命名实体识别与NLTK或斯坦福NER使用自定义语料库
- 15. 我可以使用命名实体识别来识别Intranet页面内容吗?
- 16. 计算实体在NLP中的置信度得分命名实体识别
- 17. 是否有命名实体识别的任何C#库?
- 18. 免费标记语料库进行命名实体识别
- 19. 使用nltk将日期识别为命名实体?
- 20. 用于命名实体识别的TensorFlow RNNs
- 21. 使用Python从个人Gazetter中命名实体识别
- 22. 政治领域中的命名实体识别
- 23. 命名实体识别数据和功能
- 24. 命名实体识别的计算精度和召回率
- 25. 命名实体识别在门使用LingPipe
- 26. 使用条件随机场进行命名实体识别
- 27. 培训NER分类器以识别作者姓名
- 28. 如何通过OpenNLP为阿尔巴尼亚语实现命名实体识别?
- 29. 模糊实体识别
- 30. 无监督名称实体识别(NER)与自定义控制词汇表交叉点在Java建议
按'特定领域',你的意思是特定的领域或领域?将NER训练到特定域的特定语料库可能是一种解决方案。 – 2012-04-07 03:04:47
@Kenston我的错误。是的,我的意思是专注于特定的领域。例如,如果我训练棒球运动员姓名的NER分类器,它是否可以继续只接受该域名,而不接受政治家或其他名字?他们有这种我想要的行为吗? – KillBill 2012-04-07 06:58:16
我认为这取决于使用的功能。如果特征更多地出现在案例中(标题或大写),那么政治家的名字可能会被包括在内。有一个地名词典(玩家名单列表)不适合你吗? – 2012-04-07 09:45:48