网络爬虫如何处理javascript

今天互联网上的很多内容都是使用JavaScript（特别是后台AJAX调用）生成的。我想知道像谷歌这样的网络爬虫如何处理它们。他们知道JavaScript吗？他们有内置的JavaScript引擎吗？或者他们简单地忽略页面中所有JavaScript生成的内容（我想这不太可能）。人们是否使用特定的技术来获取其索引的内容，否则这些技术将通过后台AJAX请求提供给普通的Internet用户？网络爬虫如何处理javascript

来源

2009-11-23 Shailesh Kumar

http://stackoverflow.com/questions/1739898/html-how-to-get-我的子页面上谷歌搜索请参阅这里的“获取内容索引”的答案 – 2009-11-23 18:42:03

JavaScript由Bing和Google抓取工具处理。雅虎使用Bing搜索器数据，因此它也应该被处理。我没有看到其他搜索引擎，所以如果你关心他们，你应该看看他们。

Bing published guidance in March 2014为如何创建基于JavaScript的网站，与他们的爬虫（大多与pushState）是很好的做法，一般的工作：

避免造成损坏的链接与pushState
避免创建两个链接到相同内容的不同链接pushState
避免cloaking。（Here's an article Bing published about their cloaking detection in 2007）
支持无法处理pushState的浏览器（和搜寻器）。

Google later published guidance in May 2014为如何创建基于JavaScript的网站，与他们的履带式作业，他们的建议也建议：

不要在robots.txt阻止的JavaScript（和CSS）文件。
确保您可以处理抓取工具的负载。
支持无法处理的浏览器和爬虫（或不允许的用户和组织）JavaScript是一个好主意JavaScript
依赖于语言的神秘或特定功能的棘手JavaScript可能无法与爬虫一起使用。
如果JavaScript从页面中删除内容，则可能无法获得索引。周围有。

来源

2009-11-23 18:40:34 McKay

未来看起来网络抓取工具将变得更加智能化，并更专注于AJAX？ – 2009-11-23 18:46:56

@Shailesh - 我会说一个确定的。他们谈论了在这里爬行Javascript或AJAX网站的挑战：http://searchengineland.com/google-io-new-advances-in-the-searchability-of-javascript-and-flash-but- is-it-enough-19881 – 2009-11-23 18:56:57

这个答案非常过时。 Googlebot现在肯定可以处理JavaScript：http://googlewebmastercentral.blogspot.com/2014/05/understanding-web-pages-better.html不确定其他抓取工具，但我的猜测是，他们很可能会很快跟上，如果他们还没有。 – Ajedi32 2015-09-11 16:42:36

大多数人不以任何方式处理Javascript。 （至少，所有主要搜索引擎的抓取工具都没有。）

这就是为什么让您的网站优雅地处理没有Javascript的导航仍然很重要。

来源

2009-11-23 18:37:20

不幸的是，谷歌机器人绝对爬行在JavaScript内部... [链接]（http：// stackoverflow .com/questions/5749348/jquery-causes-404-errors-in-webmaster-tools-on-a-directory） – Sparky 2011-04-26 01:22:24

他们只是不处理javascript，或者他们是否使用

网络爬虫如何处理javascript

回答