使用XPath从HTML获取多个值

我想从一些HTML中提取多个值，并且我认为XPath可能是实现此目的的理想方法。使用XPath从HTML获取多个值

我想这样做的什么是通过具有类data则循环中的每个循环tr得到我所需要的数据，是route_number的a内的文本（也在标题）和via文本。

的HTML低于：

<tr class="data"><th class="route_number"><a href="/routes/west-midlands/B001v/?tab=" title="Dudley - Sedgley - Wolverhampton - Tettenhall Wood"><span class="route_number small_curvy">1</span></a></th> 
    <td class="main_and_via"> 
    <a href="/routes/west-midlands/B001v/?tab=" title="Dudley - Sedgley - Wolverhampton - Tettenhall Wood">Dudley - Sedgley - Wolverhampton - Tettenhall Wood</a> 
      <span class="via"><strong>via</strong> Dudley Road and Tettenhall Road</span> 
      </td> 
</tr><tr class="data"><th class="route_number"><a href="/routes/west-midlands/B002/?tab=" title="Birmingham City Centre - Sparkbrook - Yardley Wood - Warstock/Maypole"><span class="route_number small_curvy">2</span></a></th> 
    <td class="main_and_via"> 
    <a href="/routes/west-midlands/B002/?tab=" title="Birmingham City Centre - Sparkbrook - Yardley Wood - Warstock/Maypole">Birmingham City Centre - Sparkbrook - Yardley Wood - Warstock/Maypole</a> 
      <span class="via"><strong>via</strong> Yardley Wood Road</span> 
      </td> 
</tr>

通过每个tr然后有单独的查询循环的route number，anchor text和via text理想或可将其与一个单一的XPath查询做些什么呢？

来源

2013-04-12 imageek

不会真的不仅仅是有什么不同使用getAttribute（）和getElementsByClassName – runspired

您可以使用XPath的 “上下文” 支持：

$tr = $xpath->query("//tr[@class='data']"); 

foreach($tr as $row) { 
    $route = $tr->query("//td[contains(@class, 'route_number')]", $row); 
    etc... 
}

注意$row在第二 - >查询（）调用。它为搜索的开始位置提供了上下文。 xpath将只搜索$ row指向的特定分支，而不是搜索整个DOM树。

这样做可以保证您找到的.route_number属于您正在处理的$行，而不是树中其他位置的.router_number。

来源

2013-04-12 19:08:09

可以查询，你希望他们所有这些值，如果他们总是存在：

(
    (//tr[@class = "data"]) 
     /*[@class="route_number"]//span 
     |//tr[@class = "data"]/*[@class="main_and_via"]/a 
     |//tr[@class = "data"]//*[@class="via"] 
)/text()

结果：

#0: DOMText (length: 1) "1" 
#1: DOMText (length: 50) "Dudley - Sedgley - Wolverhampton - Tettenhall Wood" 
#2: DOMText (length: 32) " Dudley Road and Tettenhall Road" 
#3: DOMText (length: 1) "2" 
#4: DOMText (length: 71) "Birmingham City Centre - Sparkbrook - Yardley Wood - Warstock/Maypole" 
#5: DOMText (length: 18) " Yardley Wood Road"

See it in action.

来源

2013-04-12 22:17:32

使用XPath从HTML获取多个值

回答

相关问题