我试图使用java.util.Scanner采取维基百科内容并将其用于基于词的搜索。 事实是,这一切都很好,但是当阅读一些文字时,它会给我错误。 看着代码,并做了一些检查,结果证明,有些词似乎 不识别编码,等等,而内容是不可读的。 这是用来取页面代码:java.util.Scanner和Wikipedia
// -Start-
try {
connection = new URL("http://it.wikipedia.org
wiki/"+word).openConnection();
Scanner scanner = new Scanner(connection.getInputStream());
scanner.useDelimiter("\\Z");
content = scanner.next();
// if(word.equals("pubblico"))
// System.out.println(content);
System.out.println("Doing: "+ word);
//End
的问题的话为“共和”的意大利语维基百科出现。上字公众大楼中的println的 结果是这样的(板缺): ï¿ï¿½] KSR>�〜戊 �1A���E�ER3tHZ�4v��&PZjtcï ¿½¿½ï¿½D�7_|����=8��Ø}
你知道为什么吗?然而看着页面源代码和标题是相同的,使用相同的编码...
原来,内容是gzipped,所以我可以告诉维基百科不要给我teir页拉链或它的唯一途径?谢谢
我更新了我的答案以解决您的gzip问题。 – erickson 2009-02-11 22:37:10