2016-07-07 30 views
0

我正在使用jsoup和java一起使用webscrappers,我遇到了其中一个问题,因为网站中的数据未能在服务器上运行时被提取,然而,它在本地PC上工作。使用Java Jsoup进行网页抓取不能提取服务器上的数据

我试图使用代理来检查服务器的域是否被禁止从我废弃的网站,但这不是问题。

更令人困惑的是,webscrapper从网站提取数据,但不是一种特定类型的数据(例如,我在报废一个网站,您可以预订酒店,我可以从用户中提取评论中,calification他们给那家酒店,等等等等,但不是酒店的这一天的价格)

我已经检查过:

  • 的HTML /从网站的CSS没有改变
  • 我对他们的服务器有响应200
  • 越来越提取3210个
  • 的酒店价格,当我在本地,但没有测试程序在服务器
  • 我使用不同的用户代理每次

任何人谁的工作做得webscrappers有什么可能是任何想法问题?

回答

0

这很可能是酒店的价格,或者您无法刮掉的内容,其中由JavaScript生成。

Jsoup不支持JavaScript的,只会让你的纯HTML这是从服务器接收,由JavaScript被操纵之前

验证这个最好的方法是简单地print与Jsoup一起收到的html并检查内容。这样的事情:

Document doc = Jsoup.connect(url).get(); 
System.out.println(doc.html()); 
+0

其实我确实得到了酒店的价格,这个东西在服务器上运行的时候并不起作用 – estesMX