2009-12-14 55 views

回答

9

来源:http://en.wikipedia.org/wiki/Web_crawler

  • Aspseek是爬虫,索引和用C语言编写,并授权使用GPL
  • arachnode.net下一个搜索引擎写在.NET网络爬虫C#使用SQL 2008和Lucene。
  • DataparkSearch是根据GNU通用公共许可协议发布的抓取工具和搜索引擎。
  • GNU Wget是一个以C语言编写,并在GPL下发布的命令行操作的爬虫程序。它通常用于镜像Web和FTP站点。
  • GRUB是一个开放源代码的分布式搜索爬取器,Wikipedia搜索(http://wikiasearch.com)用来检索网页。
  • Heritrix是因特网档案馆的档案质量爬网程序,专门用于归档大部分网络的定期快照。它是用Java编写的。
  • ht:// Dig在其索引引擎中包含一个Web爬虫。
  • HTTrack使用Web抓取工具创建网站的镜像以进行脱机查看。它是用C编写的,并在GPL下发布。
  • ICDL Crawler是一款使用C++编写的跨平台Web爬虫程序,旨在使用计算机的空闲CPU资源基于Web站点分析模板来爬网网站。
  • 例如mnoGoSearch是爬虫,索引和C语言编写,根据GPL
  • Nutch的许可的搜索引擎是用Java编写和Apache许可证下发布的爬虫。它可以与Lucene文本索引包一起使用。
  • Pavuk是一款带有可选X11 GUI爬虫程序的命令行Web镜像工具,在GPL下发布。与wget和httrack相比,它有许多高级功能,例如基于正则表达式的过滤和文件创建规则。
  • YaCy,一个免费的分布式搜索引擎,建立在点对点网络(GPL许可下)的基础上。

而且一些阅读: Spidering Hacks 100 Industrial-Strength Tips & Tools

写为开发商,研究人员,技术助理,图书管理员和电力用户,蜘蛛黑客提供了蜘蛛和刮方法专家提示。您将首先从概念,工具(Perl,LWP,开箱即用的实用程序)和道德(如何知道您何时走得太远:什么是可接受的和不可接受的)的速成课程开始。接下来,您将收集来自数据库的媒体文件和数据。然后,您将学习如何解释和理解数据,将其用于其他应用程序,甚至构建经过授权的界面以将数据整合到您自己的内容中。

相关问题