1 嗨谁能推荐一个简单的Java网络爬虫爬网站,并返回网站中的链接列表?不,我不需要解析器。感谢您的关注。java网络爬虫 来源 2011-03-01 Wai Loon II +2 嗯......网络爬虫如何在没有某种解析器的情况下提取网页中的链接? – 2011-03-01 14:08:19
2 一个网络爬虫(几乎是定义)从来没有'简单'。 两个名字映入脑海但是,(虽然两者有一个学习曲线): Nutch Heritrix 两者都是开源的,可以完成你想要的,虽然只列出一个网站中的链接并不是建立起来的(Nutch旨在建立一个搜索索引,而Heritrix被设计为存档网站)。您将需要执行一些自定义配置来完成您的任务。 HTTrack是一个简单得多的工具,但没有在Java中实现。 来源 2011-03-01 14:10:34 Kris
嗯......网络爬虫如何在没有某种解析器的情况下提取网页中的链接? – 2011-03-01 14:08:19