2012-01-09 88 views
2

我使用JSoup来解析GB2312字符集页: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.htmljsoup输出编码问题

源代码:

String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html"; 
Document doc=Jsoup.connect(testURL).get();   
System.out.println(
    doc.select("div").html() 
); 

此给出以下的输出:

1:? 2:� 3:� 4:— 

我想与页面源代码相同:

1:· 2:慒 3:啰 4:— 

有没有办法做到这一点?

回答

1

尝试设置doc.outputSettings().escapeMode(EscapeMode.xhtml)或打印之前改变输出charset。 (参见documentation for EscapeMode)。

+0

感谢您的帮助,我尝试过其他的字符集,'EscapeMode.xhtml'和'prettyPrint(false)',输出是一样的 – Koerr 2012-01-09 18:59:41

+0

@Zenofo:bummer =(考虑用几件事情来更新你的问题试过,这可能会提高其他答案的质量。 – maerics 2012-01-09 19:00:16

+0

谢谢@maerics,对不起:) – Koerr 2012-01-09 19:05:14