如何编写代码来抓取这个?获取许多网站和服务的主机
一个网站提供了查找是哪个公司在托管的特定网站或服务:
例如,把fbcdn.net它给Facebook的。把paypal.com,它给了eBay。
我有超过100000个网站,并希望看到相应的公司。现在我正在寻找Jsoup,它是解决方案吗?所以我可以这样做:
For(String website : websiteSet){
url = "http://hostadvice.com/tools/whois/#" + website
Document doc = Jsoup.connect(url).get();
String company = doc.getHost();
Map.put(website, company);
}
任何建议?因为我听说被抓取的网站可能会阻止我的请求,因为它会在几分钟内发送太多的请求?
首先您不能使用GET,因为请求必须以POST方式发送。其次,我认为大规模的自动抓取违反了他们的“服务条款”。 – SubOptimal 2015-03-25 10:21:42
为什么不为此使用[API](http://stackoverflow.com/questions/36817/who-provides-a-whois-api)? – JonasCz 2015-03-30 11:42:17