2011-01-12 93 views
1

目标:我需要能够将撇号转换为正确形成的单词。 - 至少对于带撇号的最常见单词。理想情况下,我想要一个单词列表及其隐含的关键词(即“不”和“不”)。撇号转换为正确的文本?

问题:我创建一个搜索算法基于自然语言处理,但是当用户创建使用单引号的内容(或搜索),它会导致问题我们。这主要是因为,如果我们简单地删除撇号,我们将有(不 - >不要)(不 - >犯规),从而正式并不是一个英文单词,而不能由NLP系统进行翻译。

理想的解决方法是什么,这些项目应转换成一对一的映射,但是我不知道这样的列表中。

请让我知道,如果你知道一个,并在那里我也许能找到它。

THX

+0

出于好奇,为什么不加上收缩到您的NLP系统的字典? – 2011-01-12 22:43:02

回答

3

这看起来是一个不错的列表: http://www.textfixer.com/resources/english-contractions-list.php

取决于你想怎么好让你的系统。它会明白,“将要”是“将要”,“得到”是......好吧,这是一个艰难的。这可能意味着“必须”(“必须”,“必须”)或“得到”(“有”)。

哦,当我们试图教我们的计算机进行通信,我们学习的东西。