2011-04-25 108 views
1

有很多网页只是运行脚本而没有任何材料。 无论如何看到页面源代码而没有实际访问页面,因为它只是重定向你?在没有实际访问页面的情况下获取网页源代码

将使用一个html解析器工作来做到这一点?我使用simpleHTMLdom来解析页面?

+3

有啥问题? – 2011-04-25 17:23:59

+0

你想从重定向页面看到生成的HTML吗? – Jay 2011-04-25 17:25:05

+0

没有。你能看到什么而不看它吗? – Yada 2011-04-25 17:25:23

回答

3

在Firefox中您可以使用查看源代码协议,以只查看网站的源代码,而无需实际渲染它或它的JavaScript执行。

实例:视图出处:http://stackoverflow.com/q/5781021/298479(复制到地址栏)

+0

哈哈,有趣的是有多少人实际上复制了该链接 - *“您已经获得了”宣传者“徽章,用于获取网页源代码而无需实际访问页面。”*。我现在等待银/黄金版本:p – ThiefMaster 2012-03-22 06:39:12

1

是的,简单的解析HTML将让你的客户端(JavaScript)代码。

当这些页面被用户通过浏览器,浏览器中运行的代码和重定向,但是当你访问使用刮刀或你自己的程序吧,代码不运行,并且可以得到静态脚本。

Ofcourse,你不能访问服务器端(PHP)。这不可能。

+0

如果你不需要自动化它,只需看看你的浏览器(Firebug或Chrome开发工具)的响应内容为第一个网址 – Jay 2011-04-25 17:27:29

0

获得页面的HTML源代码的唯一方法是发送HTTP请求到Web服务器并接收答案等于访问该页面。

0

如果你想HTML-通过执行您将遇到的JavaScript问题,删除构建其内容/视图的90%以上页面的内容,除非您渲染到屏幕(隐藏),然后进行刮取。否则,你会最终抓取几个脚本标签,这对你来说没有什么好处。

例如如果我试图抓取我的Gmail收件箱页面,它是一个空的HTML页面,只有几个分散的脚本标记(可能是几乎所有基于GWT的应用程序的典型代码)

您正在抓取的页面/网站是否具有API?如果没有,是否值得问他们是否有一个在作品?

通常,这些类型的工具,沿着“窃取”信息和“共享”的信息,因此您可能需要小心行事之间的细线运行。

+0

我不知道这是找到我在我的大学的漏洞竞争的一部分。我已经确定我正在从这一页重定向。我觉得这个重定向页面上有东西。 – user434885 2011-04-25 17:36:47

1

如果你需要一个快速&肮脏的修复,您可以禁用JavaScript和元重定向(Internet Explorer可以在Internet选项对话框禁用这些火狐可以使用NoScript的插件进行同样的效果。)

这将不会有任何服务器端重定向,但会阻止客户端重定向,并允许您查看文档的HTML源代码。

相关问题