3
A
回答
5
HTML::SimpleLinkExtor比HTML::LinkExtor有点简单。你可以在我的webreaper tool上看看我的一半的尝试,它有一些你可能需要的代码。
2
您可能会发现使用HTML::LinkExtor。
5
在Perl中检索网站的经典方法是使用WWW::Mechanize,它具有链接方法,该方法返回页面中所有链接的列表。您可以抓取页面,从中获取链接,然后使用follow_link()或get()方法获取链接的页面。
1
另一种方法是使用HTML::TreeBuilder解析页面中的HTML。它返回一个对象树,您可以使用它来抓取页面中的所有链接,并且可以做更多的事情,例如根据您指定的正则表达式模式查找链接。查看HTML :: Element的文档以查看更多内容。
要查找所有在一个页面的链接:
use HTML::TreeBuilder;
use LWP::Simple;
my $url = 'http://www.example.com/';
my $html = HTML::TreeBuilder->new_from_content(get($url));
my @links = $html->look_down('_tag' => 'a');
我相信LWP ::简单HTML :: TreeBuilder作为都包含在Ubuntu的为好。
相关问题
- 1. 取消网站中的所有页面?
- 2. 获取一个网站上所有的XML页面的列表
- 3. 如何获取特定网站中的所有页面链接?
- 4. 获取网站集中的所有网站而没有获取所有列表?
- 5. 网站的所有页面闪烁
- 6. 如何抓取网站以获取所有设置的cookie和页面设置?
- 7. 如何使用perl获取网页中的所有链接?
- 8. “所有网站内容”权限页面
- 9. Clojure从网站获取html页面
- 10. 获取页面块
- 11. 如何抓取我内部网站上的所有页面?
- 12. 通过PowerShell为SharePoint网站上的每个页面获取所有webpart属性
- 13. 如何使用Ruby on Rails获取特定网站的所有页面
- 14. 善变忽略Drupal的多站点网站/所有/模块
- 15. 获取API中的所有页面
- 16. 获取页面上的所有控件
- 17. 获取facebook页面的所有信息
- 18. Django站点地图:仅获取当前网站的页面
- 19. 如何通过网址获取所有页面的URL?
- 20. 如何从facebook获取所有公开页面的网址?
- 21. 如何从网站获取所有有效的网址?
- 22. 谷歌没有索引我的网站中的所有页面
- 23. 获取隐藏在加载页面后面的网站
- 24. 获取路由器confuguration页面,而不是我的网站的网页主页
- 25. Python/wxPython:auinotebook获取所有页面
- 26. 订阅网站上所有内容的一个模块订阅模块Drupal 7
- 27. 如何从页面获取所有网址(php)
- 28. 获取通过CodeIgniter编码的网站的所有网址
- 29. 向所有页面(包括视图,模块页面等)添加“相关页面”
- 30. 如何从谷歌网站页面获取网址参数
谢谢,我已经知道该模块,但它太多(?)的开销,只能用于此功能我猜 – snoofkin 2010-09-07 04:41:18