如何在登录后抓取/索引页面？

是否有可能（有没有任何工具）抓取页面（不是内容，只是url），这是在登录后面？我们希望创建一个新网站，并且需要对旧网站上的每个网页进行索引，以便捕获所有内容，内容类型，将所有网址映射到新网站等等。我有登录信息，我是不想将这添加到谷歌或任何东西。如何在登录后抓取/索引页面？

尖叫青蛙不会这样做。而且我不能涉及当前网站的开发人员 - 因此在服务器上放置脚本也无法工作。任何其他方式来做到这一点？

2015-04-01 Anne Stahl

是的你可以，集成你的爬虫与“SELENIUM”。提供登录凭据，你可以完成你的工作。几个不错的链接，可以帮助你： -

这可能需要时间和研究，但肯定会做，照顾注销页面，而爬行。

2015-04-08 12:41:29

回答