我正在尝试在每个美国城市的维基百科页面。由于我不知道实际的URL,因此我会搜索并加载第一个结果。该URL签名要做到这一点:如何使用Java加载维基百科页面
http://en.wikipedia.org/wiki/Special:Search?go=Go&search=New+York%2C+NY
但是,它没有得到任何东西,这是我的代码:
String curWikiURL = "http://en.wikipedia.org/wiki/Special:Search?go=Go&search="+URLEncoder.encode("New York, NY", "UTF-8");;
Scanner scanner = null;
URLConnection connection = null;
connection = new URL(curWikiURL).openConnection();
scanner = new Scanner(connection.getInputStream());
scanner.useDelimiter("\\Z");
content = scanner.next();
Document doc = Jsoup.parse(content);
这是维基百科对政策的使用爬虫机器人就是这样。你很可能会很快被封锁。除非它不是爬虫。 – h22
我只是尝试阅读一次以收集一些数据来做一项研究,所以没有任何网络爬行。这更像是我自动完成一项任务,否则我将不得不手动完成任务。 – Bill
您是否需要HTML中的信息或使用JSON API可以作为选项? –