2012-02-15 61 views
1

我对使用数字和符号索引项目名称有问题。我的数据的样本如下:什么是合适的lucene分析器使用?

ANGLE BARS ORANGE - 4.0MM 2 - 1/2" 
B.I SQUARE TUBING  2" X 3" 
B.I. PIPE S-40 10MM 3/8" 
B.I SQUARE TUBING  1" X 2" 
PLYWOOD MARINE 3/4X4X8 
PLYWOOD STA. CLARA 1/8X4X8 
PLYWOOD STA. CLARA 3/16X4X8 

我想我的记号化白色或尾随空格的数据不会丢失的符号,因为这些符号是非常必要的。所以无论何时我搜索“胶合板sta。clara”,“b.i square 2”X 3“”或“angle orange 2 - 1/2”都会给我一个结果。我试图使用空白分析器,但符号被删除。我也尝试过标准分析器,但是停用词和符号也被放弃了。什么是最好的分析器来代替?

回答

3

您可以通过编写正则表达式或创建Custom Analyzer.

+0

我会在搜索时也使用PatternAnalyzer使用PatternAnalyzer? – maccramers 2012-02-15 13:09:03

+0

是的。您应该在索引和搜索时使用相同的分析仪。 – 2012-02-15 13:43:08

0

尝试使用org.apache.lucene.analysis.miscellaneous.PatternAnalyzer。您可以提供正则表达式来定义令牌分隔符。

相关问题