网络爬虫抓取基于AJAX的链接没有浏览器

是否有执行Ajax和不使用一种自动的Web浏览器或没有外部库做旧的方式检索结果AJAX一个简单的方法？它有一些先进的算法，它做到这一点？网络爬虫抓取基于AJAX的链接没有浏览器

我不知道有什么方法可以做到这一点，无需任何外部库，但为的HtmlUnit大（java写的），有一个C＃包装，你可以试一下：https://github.com/HtmlUnit/NHtmlUnit

2013-02-16 08:33:09 OakNinja

感谢小费，我会试试看。 – 2013-02-16 09:47:27

尝试Nutch的。一般来说，所有不受robots.txt限制的内容，不需要用户输入，都可以通过抓取工具进行抓取。

2013-02-21 17:57:21 abhinav

没有。 JS代码需要在本地编译，然后在本地执行。

您可以从SVN客户端获取路径，去掉Arachnode *引用，并有一个快速的JavaScript解释器。它使用mshtml.dll，它支持为.NET WebBrowser控件提供动力的AxShDocVw.dll，比.NET控件快大约6倍。

谢谢，迈克

2013-02-28 20:17:47

回答