操纵HTML文件

我正在研究一个类似浏览器的应用程序，它从站点（任何网站）获取HTML，然后在其上应用样式脚本来更改某些元素（就像greasemonkey一样）。操纵HTML文件

我最初的计划是使用XPath和XmlDocument解析HTML，但有没有更好的方法？

在此先感谢！

PS>方便的技巧，技巧&对HTML + C＃链接将是巨大的〜^^

使用HTML Aglility包。你可以在这里找到它：http://www.codeplex.com/htmlagilitypack

2010-02-08 14:02:41 Gregoire

HTML并不总是遵循XML规则，例如有HTML标签，可能没有结束标记，所以XPath和XDocument有时会抛出错误。 IE API让你能够做到这一点（见here），你也可以找到第三方解析器（请参阅this或this）

2010-02-08 14:01:35

我会高度推荐使用XSLT。这使您可以将所有转换数据保留在代码之外，因此，如果要修改要转换的HTML，或者想要更改布局，可以很容易地更改它。

非常少，如果使用HTML而不使用XHTML，请注意可能的错误。不用说，使用Tidy库可以帮助你克服这个问题。

2010-02-08 14:02:20 Johnco

我真的会推荐使用你的编程语言的选择，处理所有的HTML解析的怪异包。我之前在Ruby中使用过Hpricot，这让事情变得轻而易举。

2010-02-08 14:44:07

如果您希望能够根据其内容浏览HTML，那么XPath是一个不错的选择。但是你必须先清理HTML。您可以使用HTML tidy将HTML转换为XHTML。在这个过程中，你可以修改页面的渲染方式。但它似乎是你的项目的目的，所以这不是什么大不了的事情。

2010-02-08 20:19:54 FKDev

回答