我正在构建一个需要从合作伙伴网站刮取信息的网站。现在我的刮码与其他网站很好,但不是这个。它是一个普通的.html网站。我的想法是,它可能会产生一些如何与PHP(网站是用PHP构建的)。为什么我不能刮网站的任何想法?
我不知道我只是猜测生成的部分,我需要你的专业人士帮助。如果重要的话,我使用的是我的代码。 htmlDocument是htmlAgilityPack,但与它无关。结果在我尝试的网站上为空。
string result;
var objRequest = System.Net.HttpWebRequest.Create(strUrl);
var objResponse = objRequest.GetResponse();
using (var sr = new StreamReader(objResponse.GetResponseStream()))
{
result = sr.ReadToEnd();
sr.Close();
var doc = new HtmlDocument();
doc.LoadHtml(result);
foreach (var c in doc.DocumentNode.SelectNodes("//a[@href]"))
{
litStatus.Text += c.Attributes["href"].Value + "<br />";
}
}
编辑:
这是从W3验证,可能有这个东西吗?
对不起,我无法验证该文档,因为上线422是包含在一个或 更多,我不能解释为UTF-8字节(换言之,发现字节不是在指定的字符编码有效 值)。请检查文件内容和 字符编码指示。
错误是:UTF8“版权所有\ xA9”不映射到Unicode
那么'result'的值是什么? – 2010-01-18 12:42:49
@Marc:OP状态“结果为null,我试着在网站上” – 2010-01-18 12:44:35
我试过用maby 15个网站,我需要的是唯一一个null .. – 2010-01-18 12:46:06