2011-02-16 82 views
4

这只是一个普遍的问题。目前我正在使用正则表达式来进行网页抓取。但是我认为找出正则表达式有时候太困难了,所以我在想XSL/XPath是C#中正则表达式的替代方案吗?网页(html)使用C#刮脸

此外,我想知道是否有更高级的技术用于网页抓取,而不是上面列出的两个。谢谢。

+2

xsl/xpath要求页面是XHTML 1.0,并非所有的html都符合xml解析器容易使用的东西 – rene 2011-02-16 18:23:47

+0

@rene:这是干净的吗?如果网页是XHTML1.0,Xpath可以在C#中使用,如果它不是XHTML1.0,那么只需要寻找其他的选择? – Kevin 2011-02-16 18:38:17

回答