使用C＃从网络请求中删除html内容

C#我有以下代码，它获取网页的内容并将它们存储在字符串变量中。
使用C＃从网络请求中删除html内容

WebRequest request = WebRequest.Create("http://www.arsenal.com"); 
WebResponse response = request.GetResponse(); 
Stream data = response.GetResponseStream(); 
string html = String.Empty; 
using (StreamReader sr = new StreamReader(data)) 
{ 
    html = sr.ReadToEnd(); 
}

代码工作正常，但M I需要在页面的内容存储，而不html标签和Javascript东西。有没有办法这样做（任何内置的方法或准备好这样的事情）？
其实我找到了一些方法去除html标签，但Javascript和CSS款式仍然困扰着我。我不得不提及删除html的方式也不太好，我正在使用正则表达式来执行此操作。

来源

2016-11-10 Media

寻找图书馆做到这一点。如果你自己写一些东西，你将会进入一个痛苦的世界。可能是张贴这个好时机：http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – GrandMasterFlush

@GrandMasterFlush我也在寻找一个图书馆，但没有找不到任何东西 – Media

http://stackoverflow.com/questions/56107/what-is-the-best-way-to-parse-html-in-c可能值得一看。我以前使用过HTMLAgility包。 – GrandMasterFlush

由于this question暗示，解析HTML是一个棘手的过程，最好的方法是使用库。

我以前用HTML Agility Pack取得了一些成功，但this question列出了一些其他选项。

来源

2016-11-10 17:39:14 GrandMasterFlush

使用C＃从网络请求中删除html内容

回答

相关问题