1
我用apache nutch爬行网站,并将其索引到Apache Solr.i不知道如何搜索与solr网站和html标签之间的字符串? 谢谢如何在solr中搜索html标签?
我用apache nutch爬行网站,并将其索引到Apache Solr.i不知道如何搜索与solr网站和html标签之间的字符串? 谢谢如何在solr中搜索html标签?
最简单的方法是从HTML中提取数据并索引提取的数据。您可以使用HTMLStripCharFilterFactory从输入流中去除HTML。
<analyzer>
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>