目标:我需要能够将撇号转换为正确形成的单词。 - 至少对于带撇号的最常见单词。理想情况下,我想要一个单词列表及其隐含的关键词(即“不”和“不”)。撇号转换为正确的文本?
问题:我创建一个搜索算法基于自然语言处理,但是当用户创建使用单引号的内容(或搜索),它会导致问题我们。这主要是因为,如果我们简单地删除撇号,我们将有(不 - >不要)(不 - >犯规),从而正式并不是一个英文单词,而不能由NLP系统进行翻译。
理想的解决方法是什么,这些项目应转换成一对一的映射,但是我不知道这样的列表中。
请让我知道,如果你知道一个,并在那里我也许能找到它。
THX
出于好奇,为什么不加上收缩到您的NLP系统的字典? – 2011-01-12 22:43:02