-1
我试图通过以下所有内部链接自动抓取给定的网站,做到这一点我一直在玩蟒蛇mechanize
库,虽然这不允许我使用JavaScript和ajax内容。以类似于Google bot的方式抓取网站html和javascript
谷歌机器人和其他主要搜索引擎蜘蛛/机器人如何做到这一点,是否有另一种工具可以补充mechanize
在这种情况下?
我知道我可以反向工程的JavaScript来找出它做什么和他们模仿,但我想自动爬行,所以它不会实际,如果我第一次必须通过每个网站的JavaScript梳理。