以类似于Google bot的方式抓取网站html和javascript

-1

我试图通过以下所有内部链接自动抓取给定的网站，做到这一点我一直在玩蟒蛇mechanize库，虽然这不允许我使用JavaScript和ajax内容。以类似于Google bot的方式抓取网站html和javascript

谷歌机器人和其他主要搜索引擎蜘蛛/机器人如何做到这一点，是否有另一种工具可以补充mechanize在这种情况下？

我知道我可以反向工程的JavaScript来找出它做什么和他们模仿，但我想自动爬行，所以它不会实际，如果我第一次必须通过每个网站的JavaScript梳理。

2013-12-14 sam

为了实现这种大蜘蛛，还有就是一些问题实现它之前要解决：

只是想按照自动页面中的所有链接？
这很简单。当您获取一个页面时，解析它并获取所有<a>标签中的href值，然后发出这些新的url的请求。
如果您不想对其进行硬编码，那么的scrapy将自动完成该工作。使用requests和lxml也很容易完成这项工作。
这是一个简单的问题来解决。
想要解析javascript语句吗？
这是一个很大的问题，但还有是用一些很好的工具，如PhantomJS和similar，QtWebKit的和硒。
我不知道Google如何处理这个问题，但另一种先进的方法是修改Chromium或Firefox的核心。这有点困难，但可能会在很大程度上提高蜘蛛的效率。
你有什么目的来实现这样的蜘蛛？
抓取页面来做Google这样的搜索引擎？抓取一些文章，书籍或视频供个人使用？当你知道你想用蜘蛛做什么时，你就知道如何实现它。

爬网时存在一些问题，它可能会帮助您实现强大的蜘蛛。 Here它是。

2013-12-14 01:47:37 flyer

回答