2017-01-23 173 views
0

大家好, 我想用单个词法分析器开发所有语言的多语言搜索。有可能在单核中开发,所有语言。如何做solr使用单个分词器的多语言搜索

+0

我们在谈论哪些语言? ICUTokenizer可以配置为大多数需要特殊行为的语言(常规UTF断点不会自行切断)。这就是说 - 标记器通常不是在单个字段中具有多种语言的问题,而是标准化,排序和适当的词干等。 – MatsLindh

回答

0

我认为没有必要为每种语言分别设置分词器。

我有一个字段类型,用于德语,法语,波兰语和英语语言。不同语言的数据/内容存储在同一个内核中并得到支持。

我认为这也适用于你。

您是否在寻找其中提到的其他语言?

+0

我想用相同的tokenizer搜索所有语言。是否有可能在solr? –

+0

是的......它可能... –

+0

你可以请给我一些想法如何做到这一点? –