2010-09-28 53 views
0

这个想法很简单:如何在javascript中编写此爬虫程序?

想象一下一个带有单个输入标签(如google主页)的简单白色页面。 当我在这个表单中插入博文的链接时,javascript-crawler搜索blogpost网页中的第一张图片(通过ajax),在白页中显示并保存在我的服务器上。

该爬虫类似Digg和Facebook-wall。

我必须为这个爬虫使用什么函数?

回答

2

由于cross cross domain restrictions纯JavaScript爬虫并不常见且实际上可行。您可能需要设置一个服务器端脚本,它将接收表单中输入的地址,获取远程资源的内容并解析html以获取图像。

1

Darin是对的,javascript无法请求来自其他域的内容。但它可以动态地将脚本标签添加到文档中,并包含来自其他域的一些脚本。 (详细信息:jsonp

我建议你使用YQL。您只需编写Javascript代码即可使用Yahoo的YQL库检索您想要的每一页。雅虎服务器获取您请求的URL,解析HTML并向您发送请求的部分文档。