2016-12-15 51 views
0

我处理纯文本文件,并像识别文档中存在的学院/大学名称的实体。有些时候这些名字是用不同的格式写成的,但它们是指一个大学/大学的名字。
例子:
贾瓦哈拉尔尼赫鲁科技大学海得拉巴
J.N.T.U海德拉巴
JNTU海德拉巴
JNTU-H
贾瓦哈拉尔尼赫鲁科技大学(JNTU)海得拉巴NER:涉及提取的实体以单一的现实世界的概念

所有上述名称是指同一所大学的名字。

我们如何能与所有这些名字到一个学院/大学的名字?
(我正在寻找某种Web服务或类似Google搜索的内容,因为如果我搜索这些名称中的任何一个,它将返回相同的大学链接。)

回答

0

此任务被命名为“实体链接”。有些系统是通过利用维基百科(特别是重定向这给可能的提到了实体),如BabelfyDBpedia Spotlight致力于此,在大多数情况下。

这些服务依赖于数据链路提及对唯一标识符:如果他们有可能提到了你的实体,它或许应该在大多数情况下(但对于那些暧昧)。但在许多情况下,他们的词汇是不够的,你可能会面对未知的实体或提及。在这种情况下,你必须使用现有的框架来构建自己的系统,并提供其与实体相关的数据库和他们提及。首字母缩略词可以从其全名自动生成。