我处理纯文本文件,并像识别文档中存在的学院/大学名称的实体。有些时候这些名字是用不同的格式写成的,但它们是指一个大学/大学的名字。
例子:
贾瓦哈拉尔尼赫鲁科技大学海得拉巴
J.N.T.U海德拉巴
JNTU海德拉巴
JNTU-H
贾瓦哈拉尔尼赫鲁科技大学(JNTU)海得拉巴NER:涉及提取的实体以单一的现实世界的概念
所有上述名称是指同一所大学的名字。
我们如何能与所有这些名字到一个学院/大学的名字?
(我正在寻找某种Web服务或类似Google搜索的内容,因为如果我搜索这些名称中的任何一个,它将返回相同的大学链接。)