我想写一个机器人,每天将获取html解析它。 现在为解析HTML我可以使用只是字符串函数,如爆炸或校正表达式,但我发现DOM XPath代码更干净,所以现在我可以配置所有的网站,我必须去掉蜘蛛和标签,我必须去掉像:Dom和xpath查询为html解析
'http://examplesite.com' => '//div/a[@class="articleDesc"]/@href'
因此,代码看起来像这样
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$tags = $xpath->query('//body/div[@class="articleDesc"]');
foreach ($tags as $tag)
echo $tag->nodeValue . "\n";
本
所以我得到的所有div标签与类文章的描述,这是我很大的。但我注意到div标签内的所有html标签都被剥离了。 我想知道如何获得我正在查看的div的全部内容。
我也很难看到$ xpath-> query()的任何适当的文档来查看如何形成字符串。这个php网站并没有讲述它的确切形式。尽管如此,我的主要问题我
查看http://stackoverflow.com/questions/2087103/innerhtml-in-phps-domdocument –
及其对应物http://stackoverflow.com/questions/5404941/php-domdocument-outerhtml-for-element/5404962 #5404962 – Gordon
XPath 1.0规格:http://www.w3.org/TR/xpath/ – Gordon