2013-12-14 53 views
-1

我试图通过以下所有内部链接自动抓取给定的网站,做到这一点我一直在玩蟒蛇mechanize库,虽然这不允许我使用JavaScript和ajax内容。以类似于Google bot的方式抓取网站html和javascript

谷歌机器人和其他主要搜索引擎蜘蛛/机器人如何做到这一点,是否有另一种工具可以补充mechanize在这种情况下?

我知道我可以反向工程的JavaScript来找出它做什么和他们模仿,但我想自动爬行,所以它不会实际,如果我第一次必须通过每个网站的JavaScript梳理。

回答

3

为了实现这种蜘蛛,还有就是一些问题实现它之前要解决:

  • 只是想按照自动页面中的所有链接?
    这很简单。当您获取一个页面时,解析它并获取所有<a>标签中的href值,然后发出这些新的url的请求。
    如果您不想对其进行硬编码,那么的scrapy将自动完成该工作。使用requestslxml也很容易完成这项工作。
    这是一个简单的问题来解决。
  • 想要解析javascript语句吗?
    这是一个很大的问题,但还有是用一些很好的工具,如PhantomJSsimilarQtWebKit的
    我不知道Google如何处理这个问题,但另一种先进的方法是修改Chromium或Firefox的核心。这有点困难,但可能会在很大程度上提高蜘蛛的效率。
  • 你有什么目的来实现这样的蜘蛛?
    抓取页面来做Google这样的搜索引擎?抓取一些文章,书籍或视频供个人使用?当你知道你想用蜘蛛做什么时,你就知道如何实现它。

爬网时存在一些问题,它可能会帮助您实现强大的蜘蛛。 Here它是。