我想从html页面中提取相关关键字。删除常见的英文单词策略
我已经规定了所有html的东西,将文本拆分为单词,使用了一个词干程序,并从lucene中删除了出现在词尾列表中的所有单词。
但是现在我仍然有很多基本的动词和代词作为最常见的单词。
在lucene或雪球或其他任何地方是否有一些方法或一组词来过滤出所有这些东西,如“我,是,去,去,是,是,是,我们,你,我们......” 。“
我想从html页面中提取相关关键字。删除常见的英文单词策略
我已经规定了所有html的东西,将文本拆分为单词,使用了一个词干程序,并从lucene中删除了出现在词尾列表中的所有单词。
但是现在我仍然有很多基本的动词和代词作为最常见的单词。
在lucene或雪球或其他任何地方是否有一些方法或一组词来过滤出所有这些东西,如“我,是,去,去,是,是,是,我们,你,我们......” 。“
这似乎是一个非常简单的逆文档频率应用程序。如果你甚至有一个小的语料库,即10,000个网页,你可以计算每个单词出现在文档中的概率。然后选择一个阈值,您认为这些单词开始变得有趣或内容丰富,并在该阈值之前排除单词。
或者,此列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html
您正在寻找术语“停用词”。对于Lucene,这是内置的,您可以将它们添加到StopWordAnalyzer.java中(请参阅http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)