这些似乎并没有做索引,甚至当我明确地将它们添加到我的charset_table选项:索引欧元(€)和LB(£)在狮身人面像
charset_table=... U+20AC->U+20AC, U+00A3->U+00A3
我甚至试图将它们映射到美元符号
U+0024->U+0024, U+20AC->U+0024, U+00A3->U+0024
然而,在每种情况下,它们是不可识别的,换句话说MATCH('£1000')
不会找到“成本是£1000”和,如果我尝试映射到$
按照第二个例子然后MATCH('$1000
)`也不会。
如果我做了一个MySQL搜索,然而where field like '%£%'
我得到的记录让我相信MySQL正确编码UTF-8。意思是Pound Sign
和Euro
字符正在MySQL中正确存储,但Sphinx索引无法识别它们,即使在我明确将其Unicode字符添加到我的charset_table
之后。配置的
相关部分:
`min_stemming_len = 1
stopword_step = 0
html_strip = 1
min_word_len = 1
min_infix_len = 0
index_zones = title,description
charset_type = utf8mb4_unicode_ci
charset_table = 0..9, A..Z->a..z, _, a..z, U+0026->U+0026, U+0027->U+0027, U+002E->U+002E, U+002D->U+002D, U+2014->U+002D#, U+2019->U+0027, U+0024->U+0024, U+20AC->U+0024, U+00A3->U+0024
证实,表/列使用utf8mb4_unicode_ci
确认我可以做欧元一个MySQL搜索:Where Title like '%€%'
已确认我无法找到相同的记录与SphinxQL:where MATCH('€')
Greller确定我没有检查字符编码,事实上,根据这里的注释,从“utf8mb4_general_ci”更改为“utf8mb4_unicode_ci”http://stackoverflow.com/questions/766809/whats-the-difference utf8-general-ci-and-utf8-unicode-ci表示“通用失败无法实现所有Unicode排序规则,例如使用特定语言或字符时”。然后我也除了为欧元指定charset_table外还指定了chaset_type。没有运气。然而MysQl寻找欧元符号仍然有效。 – user3649739