2011-03-01 140 views
1

嗨谁能推荐一个简单的Java网络爬虫爬网站,并返回网站中的链接列表?不,我不需要解析器。感谢您的关注。java网络爬虫

+2

嗯......网络爬虫如何在没有某种解析器的情况下提取网页中的链接? – 2011-03-01 14:08:19

回答

2

一个网络爬虫(几乎是定义)从来没有'简单'。

两个名字映入脑海但是,(虽然两者有一个学习曲线):

两者都是开源的,可以完成你想要的,虽然只列出一个网站中的链接并不是建立起来的(Nutch旨在建立一个搜索索引,而Heritrix被设计为存档网站)。您将需要执行一些自定义配置来完成您的任务。

HTTrack是一个简单得多的工具,但没有在Java中实现。