我正在构建一个Web应用程序爬网程序,这意味着不仅要查找Web应用程序中的所有链接或页面,还要在应用程序中执行所有允许的操作(例如按下按钮,填充表单,注意DOM中的变化,即使它们没有触发请求等)构建自动网络爬虫
基本上,这是一种“浏览器模拟器”。
我发现WebKit是一个很好的选择来实现我的爬虫,因为它具有所有必需的技术(JavaScript引擎,解析器,DOM操作等),但它似乎是一种矫枉过正的功能齐全的浏览器。
有没有可以提供上述功能的工具包?
我正在构建一个Web应用程序爬网程序,这意味着不仅要查找Web应用程序中的所有链接或页面,还要在应用程序中执行所有允许的操作(例如按下按钮,填充表单,注意DOM中的变化,即使它们没有触发请求等)构建自动网络爬虫
基本上,这是一种“浏览器模拟器”。
我发现WebKit是一个很好的选择来实现我的爬虫,因为它具有所有必需的技术(JavaScript引擎,解析器,DOM操作等),但它似乎是一种矫枉过正的功能齐全的浏览器。
有没有可以提供上述功能的工具包?