1
哪个分词器是适合这样做:正确的Solr分词器来标记文本,同时保留特殊字符
input: "This-something is something."
output: ["] [This] [-] [something] [is] [something] [.] ["]
我试图与solr.WordDelimiterFilterFactory
,但这删除所有特殊字符。也试过solr.KeepWordFilterFactory
,所有特殊字符在keepwords.txt
。但是这也行不通。
有什么建议吗?我在Solr 3.4上。
感谢您的建议。我最终编写了一个自定义的过滤器并作为插件导入Solr。运作良好。谢谢!如果有人有相同的问题:http://e-mats.org/2008/06/writing-a-solr-analysis-filter-plugin/ –