2015-07-20 101 views
0

我想刮一个网站的一部分,可以说:www.mywebsite.com/ X1/X2先进的网页抓取

网站需要登录信息。

您需要打开X1第一,那么你点击一个按钮,X2将打开一个弹出窗口。如果您关闭x1您将无法访问x2

我使用互联网下载管理器,我想我把正确的登录信息,但这种失败,因为你需要X1被打开,当你访问X2

该网站支持JavaScript。

+0

什么是IDM?你用什么工具,语言来请求网页? –

+0

IDM代表称为Internet Download Manager的软件。 – user42987

+0

查看您是否可以登录并直接**访问没有JavaScript的“www.mywebsite.com/x1/x2”(即如果必须,请输入URL)。这将取决于你是否可以使用简单的刮板或需要一个完整的无头浏览器(这将会慢得多)。 – halfer

回答

0

IDM(我看了之后)是用于下载,而不是经常性的网页抓取。为什么不使用特殊的web scraping software?他们大多支持登录和复杂的HTML和js-driven pages scrape。在我看来,你的情况不是纯粹的html页面,而是一个js-stuffed网页。