2012-02-25 133 views
0

我试图从Google购物(http://www.google.co.uk/m/products?q=5010459007289,电话网站)提取产品名称信息。使用JSoup提取数据

产品名称总是出现在带班“owb63p”跨度之间,例如

"<span class="owb63p">Highland Spring Sports Bottle 750 Ml</span>" 

我是新与JSoup,我可以用URL连接,并获得整份文件,但我只需要帮助设置它,以便我只获取我需要的信息。

感谢

+0

我已成功地选择整个“span”线,通过使用:\t \t \t \t \t Element masthead = doc.select(“span.owb63p”)。first();然后只是分割字符串以获取产品名称。这是正确的方法吗? – Pedro 2012-02-25 14:22:56

回答

0

我不喜欢JSoup多,但与Apache jericho它想:

  Source source=new Source(new URL(sourceUrlString)); 
    String content=source.getFirstElementByClass("owb63p").getContent().toString(); 
1

在JSoup它会像:

Document doc = Jsoup.connect("www.google.co.uk/m/products?q=5010459007289").get(); 
Element title = doc.select("span.owb63p").first(); 
    System.out.println(title.text()); 
0

你可以尝试

doc.select("span").get(0).data(); 

,或者你可以简单地遍历多个span标签...