有没有一种流行的抓取网页数据的工具？

我正在做的信息提取工作，我需要一个工具来抓取从网页页面的数据，是否有一个在Windows中流行？有没有一种流行的抓取网页数据的工具？

2009-12-14 MainID

我认为你需要更多地表达你想做什么。 – tzerb 2009-12-14 17:51:35

来源：http://en.wikipedia.org/wiki/Web_crawler：

Aspseek是爬虫，索引和用C语言编写，并授权使用GPL
arachnode.net下一个搜索引擎写在.NET网络爬虫C＃使用SQL 2008和Lucene。
DataparkSearch是根据GNU通用公共许可协议发布的抓取工具和搜索引擎。
GNU Wget是一个以C语言编写，并在GPL下发布的命令行操作的爬虫程序。它通常用于镜像Web和FTP站点。
GRUB是一个开放源代码的分布式搜索爬取器，Wikipedia搜索（http://wikiasearch.com）用来检索网页。
Heritrix是因特网档案馆的档案质量爬网程序，专门用于归档大部分网络的定期快照。它是用Java编写的。
ht：// Dig在其索引引擎中包含一个Web爬虫。
HTTrack使用Web抓取工具创建网站的镜像以进行脱机查看。它是用C编写的，并在GPL下发布。
ICDL Crawler是一款使用C++编写的跨平台Web爬虫程序，旨在使用计算机的空闲CPU资源基于Web站点分析模板来爬网网站。
例如mnoGoSearch是爬虫，索引和C语言编写，根据GPL
Nutch的许可的搜索引擎是用Java编写和Apache许可证下发布的爬虫。它可以与Lucene文本索引包一起使用。
Pavuk是一款带有可选X11 GUI爬虫程序的命令行Web镜像工具，在GPL下发布。与wget和httrack相比，它有许多高级功能，例如基于正则表达式的过滤和文件创建规则。
YaCy，一个免费的分布式搜索引擎，建立在点对点网络（GPL许可下）的基础上。

而且一些阅读： Spidering Hacks 100 Industrial-Strength Tips & Tools：

写为开发商，研究人员，技术助理，图书管理员和电力用户，蜘蛛黑客提供了蜘蛛和刮方法专家提示。您将首先从概念，工具（Perl，LWP，开箱即用的实用程序）和道德（如何知道您何时走得太远：什么是可接受的和不可接受的）的速成课程开始。接下来，您将收集来自数据库的媒体文件和数据。然后，您将学习如何解释和理解数据，将其用于其他应用程序，甚至构建经过授权的界面以将数据整合到您自己的内容中。

来源

2009-12-14 17:21:28 miku

有没有一种流行的抓取网页数据的工具？

回答

相关问题