我正在使用爬虫来检索Web上某些页面的HTML内容。我现在有存储在一个单一的PHP变量整个HTML:如何仅使用PHP从HTML文档中提取某些标记?
$string = "<PRE>".htmlspecialchars($crawler->results)."</PRE>\n";
我想要做的是选择所有“P”的标签(例如)以及它们存储在数组中。什么是正确的方法来做到这一点?
我试过以下,通过使用xpath,但它不显示任何东西(最有可能因为文档本身不是一个XML,我只是复制粘贴其文档中给出的示例)。在PHP
$xml = new SimpleXMLElement ($string);
$result=$xml->xpath('/p');
while(list(, $node)=each($result)){
echo '/p: ' , $node, "\n";
}
希望有人用(很多)更多的经验将能够帮助我:d
这可能会帮助你:http://simplehtmldom.sourceforge.net/ – 2012-03-27 20:18:39
非常感谢!这看起来像一个非常坚实和优雅的解决方案。将马上看到它! – Eugen 2012-03-27 20:24:19
没问题。虽然不完美,但似乎大部分时间都适用。 – 2012-03-27 20:41:37