2011-01-20 102 views
19

我在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。如何使用DBPedia从内容中提取标签/关键字?

我找到关于DBPedia的文章。 DBpedia是一个社区努力,从维基百科中提取结构化信息,并在网络上提供这些信息。

有没有人使用过他们的网络服务?你知道他们是如何工作的,它有多可靠?

回答

20

DBpedia是一个梦幻般的高品质的资源。然而,为了将您的内容转换为一组相关的DBpedia中的概念,你将需要准确地识别它们在你的文字,其中包括至少两个步骤:

  1. 识别您的内容DBpedia中的概念:这包括识别文本中的概念名称(和备用名称),并且在每个短语的所有可能的含义之间进行消歧。术语“太阳”可以表示根据其包括星号,报纸,人名等的disambiguation page的许多可能的概念。这涉及实体标识,分类和链接。

  2. 确定哪些概念是有趣的:例如,当文本包含术语“the”(其中The重定向到)时,是否希望显示概念“定冠词”?

您可能想要考虑一个预先存在的文本分析库或服务,它支持实体链接到DBpedia。主题索引的一个很好的工具是Maui,在她的博士期间由Alyona Medelyan开发。另一个伟大的开源解决方案是David Milne在同一所大学的Wikipedia Miner

提供链接到DBpedia概念的两种商业服务是ZemantaExtractiv(允许某些级别的免费使用)。 DBpedia spotlight选项。可能提供这些功能的其他人列在:https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

披露:我[曾经]在Extractiv(停用)工作,该工作由Language Computer Corporation的NLP提供支持。

4

您可以使用Apache Stanbol进行此过程。 Entityhub Apache Stanbol的组件提供了根据您的需要生成自定义DBPedia索引。然后,您可以使用Enhancer组件从文字中提取地点,人员,地点实体。

以下邮件线程可能对你有所帮助。
http://markmail.org/message/52266yl5ohijxiof

您可以从下面的链接运行的Apache Stanbol的演示:
http://dev.iks-project.eu/

你也可以问问你的其他问题,请stanbol-dev AT incubator.apache.org