2016-07-15 102 views
1

我正在研究使用WordNet为单个词实施基于上下文的搜索的可能性。这个想法是这样的:改善基于上下文的搜索

用户搜索病毒,它应该返回搜索词的上下文/应用程序,在我们的例子中是健康和计算。用户现在选择上下文,该上下文现在基于所选的上下文来检索含义。我一直在检查使用WordNet的可能性,但似乎WordNet不具备此功能。我也看到了词义消歧,但其后的句子不是一个词。我如何实现这一目标?有没有任何字典能够实现这一目标?任何想法在其他工作?

回答

0

我想出如何做到这一点,我得到了这个项目称为扩展共发现域(XWN)http://adimen.si.ehu.es/web/XWND。根据作者的说法,“是一项旨在自动改进WordNet域的正在进行的工作”,Wordnet域是另一个与XWN服务于相同目的但仅限于wordnet 2.0字典文件的项目。 XWN与Wordnet 3.0一起工作我已经测试过它,但我无法弄清楚为单词选择适当的域的标准。另一个问题是在内存中加载偏移量需要很长时间。这是因为每个领域的整体抵消约为1900万。另外XWN包含大约180个域名。每个域在它们中都有相同的词,但是对于不同的权重。

例如,一个词让我们假设病毒在计算机科学中的权重为0.00007899,生物学中为0.08766,声学中为7.9866,法律中的权重为4.97655。我还观察到权重按升序排列,每个域中的前几个单词与该域密切相关。所以我设法使用它,但不太理想,因为我没有想到选择域的标准,但选择了所有的域,并仅检索与搜索到的单词相关的域的含义。

我希望这有助于某人,并且有人认为我谈论的标准。但是现在我提出了改进Wordnet域名http://wndomains.fbk.eu的方向,作者使用的是将某个词与域名相匹配的方向。

1

消歧是一个很大的计算问题。如果你愿意做一些相对简单的事情,我会指你BabelNetBabelfy

第一个是庞大的百科词典,第二个是由BabelNet团队开发的消歧系统。

随着BabelNet你有几个有关像类别这个词的元数据,它也有一个Java API。也许你可以从中解决问题。

另外,我建议您尝试一些文本分析软件,如MeaningCloud

+0

你似乎对此有相当多的了解。你能否详细说明一下?我也在研究类似的问题,并希望知道更多。 – Ahmedov

+0

@Ahmedov你想知道什么?你在做什么? – antorqs

+0

我正在研究数据集的大型语料库。基本上我的问题是找到“大海捞针”。这就是为什么我需要一个好的消歧算法,以及一些同义词找到方法。 – Ahmedov