2011-05-27 85 views

回答

4

做的最简单,最原始的方式,这将是:

  1. 从每个页面提取前N项(关键字)(可通过频率的前N项,不包括停止的词语,如简单“ a,the,an'in English)。这将为您提供每个页面的功能集。

  2. 比较页面之间重叠的顶部术语。您可以使用Wordnet来比较术语的同义词,例如运动鞋< ==>运动鞋。如果你有一定程度的关键字重叠,那么页面在某种程度上是相关的。

编辑:

一种更好的方式来获得关键字的功能集为每个页面将提取统计显著字的每一页。您可以通过从参考文本中获取或编辑(1 2和3个单词)n-grams的列表来完成此操作。 wikipedia),然后计算页面上的单词/短语的n-gram,并比较n-gram与全局n-gram集合中n-gram的出现频率。如果您发现网页上的n-gram发生频率比您期望给出参考语料库的频率更高,那么它们可能在该页面上具有统计显着性。

其中最难的部分是获取或编译参考n-gram(它必须足够大才能在统计上可行),您需要将它与您的网页上的n-gram进行比较。您可以购买谷歌的n-gram语料库,或者可以通过免费下载wikipedia等网站来建立自己的语言。如果你在谷歌环顾四周,其他人可能已经发布了一个免费的n-gram集。

1

我个人并没有使用过它,但我听说NLTK (Natural Language Toolkit)库对于这些类型的语言分析任务可以提供很大的帮助。除了大量的语言语料库和其他数据集以帮助您入门之外,他们还有许多不错的文档和教程。

相关问题