如何使用Perl高效提取HTML内容？

我正在用Perl写一个爬虫程序，它必须提取驻留在同一台服务器上的网页内容。我目前使用HTML::Extract模块来完成这项工作，但是我发现模块有点慢，所以我查看了它的源代码，发现它没有使用任何连接缓存来处理LWP::UserAgent。如何使用Perl高效提取HTML内容？

我最后的手段是抓住HTML::Extract的源代码，并修改它以使用缓存，但我真的想避免，如果我可以。有没有人知道任何其他模块可以更好地执行相同的工作？我基本上只需要抓取<body>元素中的所有文本，并删除HTML标签。

来源

2009-09-11 Alvin

我使用pQuery为我的网页抓取。但我也听说过有关Web::Scraper的好消息。

这两个与其他模块一起出现在答案上SO类似的问题，你的：

来源

2009-09-11 10:35:42 draegtun

感谢您的回答。我想知道，你知道你提到的哪个模块更适合重复提取大量的HTML页面吗？ – Alvin 2009-09-11 17:25:04

使用Web :: Scraper，至少可以将它传递给页面的内容，而不是URL。这样，您就可以在抓取之前执行自己的缓存。 – 2009-09-12 12:52:06

@Alvin：我不知道，因为我不知道Web :: Scraper，HTML :: TreeBuilder或任何其他模块如何针对pQuery执行操作。所有的利弊取决于具体的要求。顺便说一句，要获得在与在pQuery中删除的HTML标签中的所有文本是：pQuery（$ html_data） - > find（'body'） - > text; – draegtun 2009-09-12 21:48:29

HTML::Extract的功能看起来很基本和无趣。如果draegfun提到的模块不感兴趣，那么您可以自己使用LWP::UserAgent和HTML::TreeBuilder来做所有的事情，而不需要太多的代码，然后您可以自由地按照自己的条件进行缓存。

来源

2009-09-12 10:11:04 hobbs

我一直在使用Web::Scraper为我的刮需要。提取数据的确非常好，因为你可以调用->scrape($html, $originating_uri)，所以缓存你需要的结果也是非常容易的。

来源

2009-09-12 12:27:31 singingfish

您是否需要实时进行此操作？效率如何影响你？你是否连续执行这项任务，以便在进入下一个页面之前必须提取一页？为什么你想避免缓存？

您的抓取工具能否下载页面并将它们传递给其他内容？也许您的抓取工具甚至可以并行运行，或者以某种分布式方式运行。

来源

2009-09-16 15:31:49

谢谢，你说的对，我可以并行执行任务。使用线程模块解决了瓶颈问题。 – Alvin 2009-09-17 18:05:54

如何使用Perl高效提取HTML内容？

回答

相关问题