我刚刚开始探索Jsoup并面临以下问题:当我尝试从仅属于维基百科英文版的https://en.wikipedia.org/wiki/Knowledge
中提取链接时,正常工作。jsoup - 如何从维基百科文章的文本中获取链接
Document document = Jsoup.connect("https://en.wikipedia.org/wiki/Knowledge").timeout(6000).get();
Elements linksOnPage = document.select("a[href^=\"/wiki/\"]");
for (Element link : linksOnPage) {
System.out.println("link : " + link.attr("abs:href"));
}
}
不过我也越来越不属于当前的物品,如文本链接:
link : https://en.wikipedia.org/wiki/Main_Page
link : https://en.wikipedia.org/wiki/Portal:Contents
link : https://en.wikipedia.org/wiki/Portal:Featured_content
link : https://en.wikipedia.org/wiki/Portal:Current_events
link : https://en.wikipedia.org/wiki/Special:Random
link : https://en.wikipedia.org/wiki/Help:Contents
link : https://en.wikipedia.org/wiki/Wikipedia:About
link : https://en.wikipedia.org/wiki/Wikipedia:Community_portal
什么是让只从文本领先的链接的正确方法到Jsoup的其他维基百科文章?
https://jsoup.org/cookbook/extracting-data/selector-syntax – matoni
@matoni感谢。我发现我不需要的链接位于'div id =“mw-panel”'中。所以我根据jsoup cookbook编辑链接的选择器,如下所示:元素linksOnPage = document.select(“a [href^= \”/ wiki/\“],div:not(.mw-panel) “);'。但我仍然从维基百科侧面板上获得不需要的链接。 – samba