我正在实现一个网络爬虫,我正在使用Crawler4j库。我没有获得网站上的所有链接。 我试图使用Crawler4j提取一页上的所有链接,并错过了一些链接。如何使用crawler4j提取页面上的所有链接?
Crawler4j版本:crawler4j-3.3
网址我使用的是:http:中几乎60和4-5://testsite2012.site90.com/frontPage.html
的这个页面上的链接号他们都在重复
号的链接crawler4j了:23
this是URL的网页列表,this是crawler4j给出的URL列表。
我看了“HtmlContentHandler.java”文件使用crawler4j提取的链接。在这里,只有与'src'和'href'链接相关的链接被提取。
我发现这些文件之间的区别。 Crawler4j缺少与'src'或'href'属性无关的链接,它们位于'script'标签下。 this是crawler4j未抓取的链接列表。
我怎样才能提取此网页上的所有链接? 我是否需要在HTML解析页面上进行字符串处理(如查找'http'),还是应该更改'HtmlContentHandler.java'文件的代码?
哪种方法最好?
即使我做的字符串操作,并提取此网页上的所有链接,但Crawler4j爬行利用自身爬,也不会在这样的情况下,它会错过一些网页的链接的网站的?
使用Jsoup解析器。简单而整洁。 –
http://jsoup.org/cookbook/extracting-data/working-with-urls –