2012-08-02 114 views
0

我尝试编写一个简单的PHP来抓取html页面。 我不知道为什么我不能得到结果? 下面是我的一些PHP代码:初学者头疼PHP DOMXPath

//$html , successfuly get the html from "http://m.hkgolden.com/topics.aspx?type=HW" by curl 

$dom = new DOMDocument(); 
@$dom->loadHTML($html); 
$xpath = new DOMXPath($dom); 
$xpath->registerNamespace('x', 'http://www.w3.org/1999/xhtml'); 

$itemList = $xpath->query('//x:div[contains(@class,"TopicBox_Details")]/a'); 

var_dump($itemList); // it show --> object(DOMNodeList)#4 (0) { } 

foreach ($itemList as $item){ 
     $this->child_urls[] = $item->getElementsByTagName('a')->item(0)->getAttribute('href'); 
       } 

var_dump($this->child_urls); //it show --> array(0) { } 

相同XPath查询是在Firefox的XPath的检查工作,但相同的查询不能在PHP工作。我做错了什么? Firefox XPath Checker

+0

什么是'$这个 - > child_xpath'价值? – xdazz 2012-08-02 10:08:25

+0

'// x:div [contains(@class,“TopicBox_Deta ils”)]/a'无论如何,我已经在问题中替换了它。 – 2012-08-02 10:18:16

+0

命名空间。命名空间。命名空间。 :)但我时间不多,所以我只能离开笔记。 – hakre 2012-08-02 10:20:10

回答

0

您应该将命名空间添加到在XPath以及在a元素 - 命名空间得到继承:

//x:div[contains(@class,"TopicBox_Details")]/x:a 
+0

谢谢,它似乎你的答案可以帮助,但我现在不能尝试,回到家里到达我的电脑1小时后,我很初学,做出这样简单的错误。不知道名称空间前缀。 – 2012-08-02 11:06:51

+0

我仍然得到这个结果...我怎么调试它?对象(DOMNodeList)#4(0){} 数组(0){} @ $ dom-> loadHTML($ html); 如果我删除@,在loadHTML时查看日志。它显示很多 [Thu Aug 02 19:50:03 2012] [错误] [客户端XXX.XXX.XXX.XXX] PHP警告:DOMDocument :: loadHTML():意外的结束标记:实体中的脚本行: 911 in /home/jasper/www/lab/test2.php在线52 它是否相关? – 2012-08-02 11:51:18