的如何获得相同的结果http://developer.yahoo.com/search/content/V1/termExtraction.html术语提取:Generatings标记出文本
这个问题已经被问过好几次。
试图接近与现有的解决方案,这个问题我偶然发现了 “文本分析” 的Solr的索引文件作为之前执行描述在http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - 其中也包括词干。
所以最终的索引将主要由用于描述文档的术语组成。
有没有提供直接使用分析器,标记器和令牌过滤器的解决方案?如果solr是出路,从solr的索引中获取这些数据的最好方法是什么?
是的,Solr条款只会返回唯一的令牌(也许减去一些常见的词,并做词干等)。它不会真正告诉你文中的重要内容。对于它的价值,你可以通过http://wiki.apache.org/solr/TermsComponent从solr中剔除条款 – mlathe 2010-01-28 18:49:38