扩展字符（欧洲）以美国ascii为搜索索引

我做了，但它看起来像是有希望的：http：// stackoverflow。com/questions/450026/how-can-i-change-extended-latin-characters-to-their-unaccented-ascii- – 2011-03-26 15:56:25

这确实出现了工作：

import java.text.Normalizer; 

Normalizer.normalize("ô", Normalizer.Form.NFD).replaceAll("[^\\p{ASCII}]","");

来源

2011-03-26 16:11:56

你有正确的总体思路，但错误的具体做法。

请注意，在许多欧洲语言中，删除重音是一个非常糟糕的主意。人们输入它们是有原因的。非常不同的单词只有重音才有区别。 '爸爸'和'papá'不一样。差远了。这些语言的用户期望输入它们并期望获得尊重差异的搜索命中。

其次，这方面现有很多工作。请参阅lucene.apache.org，其中有一组令牌过滤器，用于执行您可能需要或可能不需要的各种操作。

还有其他潜在有用的行为的商业产品，如映射'跑步'到'跑步'等等。

如果您确定要这样做，请首先标准化为'decomposed'（NFKD），然后删除重音符号。强奸（A）。

来源

2011-03-26 16:17:25 bmargulies

虽然我一般同意你的观点，在大多数情况下，我应该更好地代表这种情况我主要处理美国人搜索产品（请参阅我的网站http://evocatus.com/）我正在索引这两种拼写组合。大多数电子商务网站（如亚马逊）甚至删除了产品演示文稿中的字符。我至少保留了真正的拼写，同时扩大了搜索范围，但不幸的是提供了更多的误报。 – 2011-03-26 16:54:16

@Ada请参阅编辑处方。 – bmargulies 2011-03-26 17:08:12

扩展字符（欧洲）以美国ascii为搜索索引

回答

相关问题