我想提取“日期:2009-09-25,下午1时54 EDT”从这个网页XPath表达式?
http://auburn.craigslist.org/sha/1392067187.html
但我不知道如何写为XPath表达式。
谁能帮我在这。
我正在等领域也从这个页面。
我想提取“日期:2009-09-25,下午1时54 EDT”从这个网页XPath表达式?
http://auburn.craigslist.org/sha/1392067187.html
但我不知道如何写为XPath表达式。
谁能帮我在这。
我正在等领域也从这个页面。
你运行通过TIDY或其他一些过程把它变成XHTML的HTML?或者你如何能够对该HTML执行XPATH?
如果文档是合式,那么你很可能使用以下XPath:
/html/body/hr[1]/following-sibling::text()[1]
它发现文档中的第一人力资源要素,然后选择第一个文本()节点下它(其中包含字符串“日期:2009-09-25,下午1时54 EDT”
非常感谢你解决了。我的问题。 – 2009-09-26 18:00:51
你为什么不只是运行类似下面的一个正则表达式?
'日期:\ S +([0-9] {4} - [0-9] {2} - [0-9] {2} + \ <。?)'
它接缝是最简单的方法。如果你不希望使用纯文本,你可以使用对正则表达式支持的XPath 2.0(FN:匹配)。
该网页似乎并没有被XML标准,因此XPath的可能不会有很大的帮助 – 2009-09-26 16:43:29