2015-04-01 53 views
1

是否有可能(有没有任何工具)抓取页面(不是内容,只是url),这是在登录后面?我们希望创建一个新网站,并且需要对旧网站上的每个网页进行索引,以便捕获所有内容,内容类型,将所有网址映射到新网站等等。我有登录信息,我是不想将这添加到谷歌或任何东西。如何在登录后抓取/索引页面?

尖叫青蛙不会这样做。 而且我不能涉及当前网站的开发人员 - 因此在服务器上放置脚本也无法工作。任何其他方式来做到这一点?

回答

0

是的你可以,集成你的爬虫与“SELENIUM”。提供登录凭据,你可以完成你的工作。 几个不错的链接,可以帮助你: -

How to use Selenium with Python?

http://www.quora.com/Is-it-possible-to-write-a-Python-script-for-opening-a-browser-and-logging-into-a-website-How-could-you-do-it

https://selenium-python.readthedocs.org/en/latest/getting-started.html

这可能需要时间和研究,但肯定会做,照顾注销页面,而爬行。