2009-09-26 138 views
1

我想提取“日期:2009-09-25,下午1时54 EDT”从这个网页XPath表达式?

http://auburn.craigslist.org/sha/1392067187.html 

但我不知道如何写为XPath表达式。

谁能帮我在这。

我正在等领域也从这个页面。

+2

该网页似乎并没有被XML标准,因此XPath的可能不会有很大的帮助 – 2009-09-26 16:43:29

回答

1

你运行通过TIDY或其他一些过程把它变成XHTML的HTML?或者你如何能够对该HTML执行XPATH?

如果文档是合式,那么你很可能使用以下XPath:

/html/body/hr[1]/following-sibling::text()[1] 

它发现文档中的第一人力资源要素,然后选择第一个文本()节点下它(其中包含字符串“日期:2009-09-25,下午1时54 EDT”

+0

非常感谢你解决了。我的问题。 – 2009-09-26 18:00:51

2

你为什么不只是运行类似下面的一个正则表达式?

'日期:\ S +([0-9] {4} - [0-9] {2} - [0-9] {2} + \ <。?)'

它接缝是最简单的方法。如果你不希望使用纯文本,你可以使用对正则表达式支持的XPath 2.0(FN:匹配)。