2009-07-08 65 views
5

的如何获得相同的结果http://developer.yahoo.com/search/content/V1/termExtraction.html术语提取:Generatings标记出文本

这个问题已经被问过好几次。

试图接近与现有的解决方案,这个问题我偶然发现了 “文本分析” 的Solr的索引文件作为之前执行描述在http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - 其中也包括词干。

所以最终的索引将主要由用于描述文档的术语组成。

有没有提供直接使用分析器,标记器和令牌过滤器的解决方案?如果solr是出路,从solr的索引中获取这些数据的最好方法是什么?

回答

4

Solr是一种创建自定义搜索引擎的方式。它似乎不适合这项工作。 Wikipedia article about term extraction在其“外部链接”部分列出了几个用于术语提取的Web应用程序。 OpenNLP有一个可能有用的工具列表。 Its Chunker可能会有帮助。

+0

是的,Solr条款只会返回唯一的令牌(也许减去一些常见的词,并做词干等)。它不会真正告诉你文中的重要内容。对于它的价值,你可以通过http://wiki.apache.org/solr/TermsComponent从solr中剔除条款 – mlathe 2010-01-28 18:49:38

0

只是要求解析的术语例如

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1 

更多信息,请参见TermsComponent