0
C#
我有以下代码,它获取网页的内容并将它们存储在字符串变量中。
使用C#从网络请求中删除html内容
WebRequest request = WebRequest.Create("http://www.arsenal.com");
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
html = sr.ReadToEnd();
}
代码工作正常,但M I需要在页面的内容存储,而不html
标签和Javascript
东西。有没有办法这样做(任何内置的方法或准备好这样的事情)?
其实我找到了一些方法去除html
标签,但Javascript
和CSS
款式仍然困扰着我。我不得不提及删除html
的方式也不太好,我正在使用正则表达式来执行此操作。
寻找图书馆做到这一点。如果你自己写一些东西,你将会进入一个痛苦的世界。可能是张贴这个好时机:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – GrandMasterFlush
@GrandMasterFlush我也在寻找一个图书馆,但没有找不到任何东西 – Media
http://stackoverflow.com/questions/56107/what-is-the-best-way-to-parse-html-in-c可能值得一看。我以前使用过HTMLAgility包。 – GrandMasterFlush