2011-09-23 88 views
0

我想从html页面中提取相关关键字。删除常见的英文单词策略

我已经规定了所有html的东西,将文本拆分为单词,使用了一个词干程序,并从lucene中删除了出现在词尾列表中的所有单词。

但是现在我仍然有很多基本的动词和代词作为最常见的单词。

在lucene或雪球或其他任何地方是否有一些方法或一组词来过滤出所有这些东西,如“我,是,去,去,是,是,是,我们,你,我们......” 。“

回答

2

这似乎是一个非常简单的逆文档频率应用程序。如果你甚至有一个小的语料库,即10,000个网页,你可以计算每个单词出现在文档中的概率。然后选择一个阈值,您认为这些单词开始变得有趣或内容丰富,并在该阈值之前排除单词。

或者,此列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html

1

Rtm软件包为许多常见的NLP任务提供了一个通过R的接口,并且具有与Weka的接口。这可能值得一试。该文档是here

在更仔细地查看您的问题时,您可能正在寻找tm软件包中的removeStopWords()功能。