2012-08-11 148 views

回答

0

最简单的方法是从HTML中提取数据并索引提取的数据。您可以使用HTMLStripCharFilterFactory从输入流中去除HTML。

<analyzer> 
    <charFilter class="solr.HTMLStripCharFilterFactory"/> 
    <tokenizer class="solr.StandardTokenizerFactory"/> 
</analyzer>