2011-02-07 121 views
1

我必须从网页和链接的其他页面获取所有单词及其频率。我必须使用任何网络爬虫吗?任何简单的开源解决方案?如何从网页获取所有单词及其频率?

+0

的[SEO分析](http://www.seoworkers.com/tools/analyzer.html)可以是对你有一些帮助。 – 2011-02-07 16:05:21

+1

解析网页并从中收集单词以限制为单个答案的方式太多了。 – 2011-02-07 16:06:01

回答

1

httrack%I(创建搜索索引)选项正是这么做的。

documentation page解释了这个关于中途下降,对不起,没有deeplink可用。跳转到句子片段

仍然在测试中,该选项要求发动机