2012-03-03 80 views
1

我在PHP中使用DOM解析HTML时遇到了问题。我想检索href值,但给我错误。 我想要一个二维数组中的行值和href值。代码中的最后一行也会给出错误。任何想法 ?我想要的输出是 - 二维数组中的“
1”,“http:// .....”,用户
2,“http:// .....”,服务器等。在PHP中解析HTML

<html> 
<body> 
    <table> 
     <tbody> 
      <tr> 
       <td>1 </td> 
       <td><a href="http://www.abcd.net"></a></td> 
       <td>User</td> 
      </tr> 
      <tr> 
       <td>2 </td> 
       <td><a href="http://www.def.net"></a></td> 
       <td>Server</td> 
      </tr> 
     </tbody> 
    </table> 
    </body> 
    </html> 

这里是PHP代码

$resArr = array(); 

$dom = new domDocument; 
@$dom -> loadHTML(file_get_contents($link)); 
$dom -> preserveWhiteSpace = false; 

$linkt = $dom -> getElementsByTagName('table'); 
$linkt1 = $linkt -> item(2); 

//tr 
foreach ($linkt1 -> childNodes as $key => $tag){ 
    //td 
    foreach ($tag -> childNodes as $key1 => $tag1){ 

     foreach ($tag1 -> childNodes as $key2 => $tag2){ 
      echo $tag2->hasattribute('href'); 
         //Error Occur here ----Fatal error: Call to 
         //undefined method DOMText::hasattribute() in on line 38 
     } 
    } 
} 

$resArr[$i][0] = $tag -> childNodes -> item(0) -> nodeValue; 
$resArr[$i][3] = $tag -> childNodes -> item(3) -> nodeValue; 
$resArr[$i][1] = $tag1 -> childNodes -> item(1) -> 
    childNodes -> item(0) -> getAttribute('href'); //the same error as above 
+8

如果您收到一个错误,*包括错误信息在你的问题*。 – Amber 2012-03-03 04:48:33

+3

您的预期输出也会有帮助。我们无法读懂你的想法。 – 2012-03-03 05:11:51

+0

你有控制HTML吗?为什么不修正它,因此获得更好的性能? – 2012-03-03 06:27:37

回答

3

我不知道你想要什么输出,但我敢肯定,这是一个XPath问题。像这样?

// Your sample html is stored in $html as a string 
libxml_use_internal_errors(false); 
$dom = new DOMDocument(); 
$dom->loadHTML($html); 
libxml_use_internal_errors(true); 

$xp = new DOMXPath($dom); 

$rows = $xp->query('/html/body/table/tbody/tr'); 

$resArr = array(); 
foreach ($rows as $row) { 
    $resArr[] = array(
     $xp->evaluate('string(td[1])', $row), 
     $xp->evaluate('string(td[2]/a/@href)', $row), 
     $xp->evaluate('string(td[3])', $row), 
    ); 
} 

var_dump($resArr); 

从这个代码的输出:

array(2) { 
    [0]=> 
    array(3) { 
    [0]=> 
    string(2) "1 " 
    [1]=> 
    string(19) "http://www.abcd.net" 
    [2]=> 
    string(4) "User" 
    } 
    [1]=> 
    array(3) { 
    [0]=> 
    string(2) "2 " 
    [1]=> 
    string(18) "http://www.def.net" 
    [2]=> 
    string(6) "Server" 
    } 
} 
+0

适合我。查看更新的答案。你有什么错误吗? – 2012-03-03 08:02:49

+0

嗨弗朗西斯,感谢您的更新。有用! – zhtway 2012-03-03 19:47:50

+0

很好用。考虑接受答案,如果它回答你的问题。 – 2012-03-03 19:51:16