XPath表达式？

2009-09-26 138 views 1 likes

我想提取“日期：2009-09-25，下午1时54 EDT”从这个网页XPath表达式？

http://auburn.craigslist.org/sha/1392067187.html

但我不知道如何写为XPath表达式。

谁能帮我在这。

我正在等领域也从这个页面。

该网页似乎并没有被XML标准，因此XPath的可能不会有很大的帮助 – 2009-09-26 16:43:29

回答

你运行通过TIDY或其他一些过程把它变成XHTML的HTML？或者你如何能够对该HTML执行XPATH？

如果文档是合式，那么你很可能使用以下XPath：

/html/body/hr[1]/following-sibling::text()[1]

它发现文档中的第一人力资源要素，然后选择第一个文本（）节点下它（其中包含字符串“日期：2009-09-25，下午1时54 EDT”

2009-09-26 17:49:28

非常感谢你解决了。我的问题。 – 2009-09-26 18:00:51

你为什么不只是运行类似下面的一个正则表达式？

'日期：\ S +（[0-9] {4} - [0-9] {2} - [0-9] {2} + \ <。？）'

它接缝是最简单的方法。如果你不希望使用纯文本，你可以使用对正则表达式支持的XPath 2.0（FN：匹配）。

2009-09-26 17:29:45