2009-08-11 87 views
1

我正在构建一个Web应用程序爬网程序,这意味着不仅要查找Web应用程序中的所有链接或页面,还要在应用程序中执行所有允许的操作(例如按下按钮,填充表单,注意DOM中的变化,即使它们没有触发请求等)构建自动网络爬虫

基本上,这是一种“浏览器模拟器”。

我发现WebKit是一个很好的选择来实现我的爬虫,因为它具有所有必需的技术(JavaScript引擎,解析器,DOM操作等),但它似乎是一种矫枉过正的功能齐全的浏览器。

有没有可以提供上述功能的工具包?

回答

1

我使用的WebKit通过PyQt的解析JavaScript,然后Mechanize与它互动。