2013-02-19 23 views
0

我刚刚开始研究内容提取项目。首先,我正在尝试访问网页中的图片网址。在某些情况下,“img”的“src”属性具有相对URL。但我需要获取完整的网址。从java中的网页中提取图像

我正在寻找一些Java库来实现这一点,并认为Jsoup将是有益的。有没有其他图书馆可以轻松实现?

+1

不太可能。你需要自己保持对路径的引用。您可以使用URL来提取规范的各种元素以帮助您 – MadProgrammer 2013-02-19 21:00:24

回答

1

如果你只是需要从一个相对得到完整的URL,解决方法很简单Java中:

URL pageUrl = base_url_of_the_html_page; 
String src = src_attribute_value; //relative or absolute URL 
URL imgUrl = new URL(pageUrl, src); 

HTML页面的基URL通常只是你获得的HTML代码的URL从。但是,文档头中使用的<基地标记>可用于指定不同的基本URL(但它不会非常频繁地使用)。

您可以使用Jsoup或DOM解析器获取src属性值并查找最终的基本标记。