2016-11-10 42 views
0

C#我有以下代码,它获取网页的内容并将它们存储在字符串变量中。
使用C#从网络请求中删除html内容

WebRequest request = WebRequest.Create("http://www.arsenal.com"); 
WebResponse response = request.GetResponse(); 
Stream data = response.GetResponseStream(); 
string html = String.Empty; 
using (StreamReader sr = new StreamReader(data)) 
{ 
    html = sr.ReadToEnd(); 
} 

代码工作正常,但M I需要在页面的内容存储,而不html标签和Javascript东西。有没有办法这样做(任何内置的方法或准备好这样的事情)?
其实我找到了一些方法去除html标签,但JavascriptCSS款式仍然困扰着我。我不得不提及删除html的方式也不太好,我正在使用正则表达式来执行此操作。

+0

寻找图书馆做到这一点。如果你自己写一些东西,你将会进入一个痛苦的世界。可能是张贴这个好时机:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – GrandMasterFlush

+0

@GrandMasterFlush我也在寻找一个图书馆,但没有找不到任何东西 – Media

+0

http://stackoverflow.com/questions/56107/what-is-the-best-way-to-parse-html-in-c可能值得一看。我以前使用过HTMLAgility包。 – GrandMasterFlush

回答