2015-11-05 68 views
1

我需要爬取一个网站并从中获取所有链接,问题是 - 此网站使用ajax,Go的标准http.Get(..)将返回如下内容:与ajax一起工作的网页报废/爬虫

<body> 
    //javascript here  
    <div class="content"></div> 
    //javascript here 
</body> 

Div为空。 golang有一些解决方案吗?

+1

您可能需要使用像http://agouti.org/以及硒,幻影js或Chrome驱动程序 – jcbwlkr

回答

0

http.Get(Url)刚刚得到Url的响应。 resp.Content是这样的:

<body> 
//javascript here  
<div class="content"></div> 
//javascript here 
</body> 

,如果你想在div的内容,你需要分析JavaScript并掌握了ajax如何获得数据。然后你可以模拟进程得到你想要的。

+0

是的,但这是单独的方法,用另一个JavaScript框架编写的另一个站点,不起作用。必须有一个共同的方式...... – Kaign

0

您必须使用其中一个无头网页浏览器。 没有检查我是说没有其他三个浏览器引擎(Webkit/Firefox,IE)的绑定。

切换到python和javascript。