2011-05-13 117 views
9

HtmlUnit for Java很棒,但我一直无法弄清楚如何查看完整源代码或将网站源代码作为字符串返回。谁能帮我这个?HtmlUnit来查看源代码

我知道以下将阅读网站,但现在我只想将源返回到一个字符串。

HtmlPage mySite = webClient.getPage("http://mysite.com"); 

谢谢!

回答

12

从通过API看,我的想法是:

mySite.getWebResponse().getContentAsString(); 
+0

'toString()'方法绝对不行,我不确定第二个。听起来像它可能工作,但我从来没有尝试过。 – 2011-05-13 20:00:21

+0

mySite.getWebResponse()。getContentAsString();作品!它会返回所有源,就像您从页面上下文菜单中选择“查看源代码”一样!谢谢! – 2011-05-13 20:14:45

+2

这就是'asXml()'方法在HtmlPage上所做的。这可能是“接受”的答案,但这不是HtmlUnit希望您获取该信息的方式。 – 2011-05-13 20:55:53

2

你试过mySite.asXml()?或者你也可以做mySite.getDocumentElement().toString()

14
String pageSource = myPage.asXml(); 

,将让你的网页的完整HTML源。

String pageText = myPage.asText(); 

这会让你看到页面上的所有可见文本,包括换行符/空格。如果您在浏览器的页面上,并且Ctrl+A,然后Ctrl+V变成了一个变量,那也是一样的。