2011-11-16 78 views
1

哪个分词器是适合这样做:正确的Solr分词器来标记文本,同时保留特殊字符

input: "This-something is something." 
output: ["] [This] [-] [something] [is] [something] [.] ["] 

我试图与solr.WordDelimiterFilterFactory,但这删除所有特殊字符。也试过solr.KeepWordFilterFactory,所有特殊字符在keepwords.txt。但是这也行不通。

有什么建议吗?我在Solr 3.4上。

回答

2

不要以为您的特定要求有一个开箱即用的Tokenizer。
您可以创建一个新的特定要求,并轻松让Solr使用它。

+0

感谢您的建议。我最终编写了一个自定义的过滤器并作为插件导入Solr。运作良好。谢谢!如果有人有相同的问题:http://e-mats.org/2008/06/writing-a-solr-analysis-filter-plugin/ –

相关问题