2012-07-18 58 views
0

我试图找出一种方法来获取网页中的所有超链接 - 除非它们在锚标签()中。Java杰里科超链接解析

为此,我使用了Jericho解析器。

我最初的做法是采取 List<Element> elementList = source.getAllElements();getAllElements(HTMLElementName.A)之间的差异,但其他元素也可能包含在其中的锚链接,所以我不认为这是正确的做法。

回答

0

我建议你Jsoup Html处理。

这里有一个例子,你如何能得到的所有链接(= a - 标签与href -attribute):

Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html 
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute 

for(Element element : links) // iterate over all links (example) 
{ 
    // process element 
} 

文档:

顺便说一句。你能再解释一下吗?

除非他们是在一个锚定标记