2010-06-18 42 views

回答

6

嗯,首先规定Tokenizer,第二提供Filter ;-)

既然你只能有一个标记生成器,EdgeNGramTokenizerFactory只包含一个字领域是有用的。如果您想要将为文档提供的字符串分隔为单词,则首先需要使用不同的Tokenizer,然后再分割空白或其他东西,然后再使用EdgeNGramFilterFactory。