2014-11-05 171 views
-2

最近围绕这个问题问了几个问题,但还没有真正找到我要找的。硒jSoup从Javascript获取数据网页

我想从http://www.futbol24.com/Live/?__igp=1&LiveDate=20141106打印出所有的比赛来打印出比赛的时间,主队和客队。我知道内容是在页面加载后加载的。

我被告知使用Selenium,然后在结果上使用jSoup来获取我想要的数据。有人有教程或一些示例代码,他们可以告诉我,如何在上面的网站上做到这一点?

任何示例将不胜感激,谢谢

+0

问题,要求我们建议还是找一本书,工具,软件库,教程或其他异地资源是题外话堆栈溢出,因为他们往往以吸引自发的答案和垃圾邮件。相反,请描述问题以及到目前为止解决问题所做的工作。 – SiKing 2014-11-05 21:37:20

+0

我没有要求任何上述......我要求提供一个我已经提到的特定场景的例子吗? – 2014-11-06 10:41:16

+0

我只研究过,没有写任何代码。似乎无法找到我需要的方法 - 所以想知道是否有人做过类似的事情...... – 2014-11-07 16:11:38

回答

1

如果你要凑/ datamine别人的网站,这里有一些注意事项:从网站的所有者

  1. 获得授权。如果你不这样做,你会在最好的情况下剥夺所有者并被列入黑名单,或者在最坏的情况下被起诉。
  2. 找出网站是否暴露了。这通常是刮取网站的更好方式。
  3. 更适合于此任务的研究工具/库。一些包括,.....根据您的舒适性/知识水平,你可能需要研究的基本技术:,.....
  4. 是一个功能测试图书馆的浏览器应用程序,这使得它穷人选择此任务。

PS:我完全期待为此得到downvoted /关闭,因为讨论/意见是off-topic for SO

0

这是为我工作:

System.setProperty("webdriver.chrome.driver","C:\\tools\\chromedriver_win32\\chromedriver.exe"); 
WebDriver driver = new ChromeDriver(); 
driver.get(url); 
Document doc = Jsoup.parse(driver.getPageSource()); 
// Jsoup code here to parse/scrape data 
driver.close(); 
driver.quit();