我建立一个网站爬虫,并使用这些选项cURL class为获得头,这样我就可以下载完整的网站非常它text/html
和低于指定大小之前提取其mime/type
和content-length
限制。curl_getinfo返回-1为内容长度
这些都是我的卷曲选项
$c->setopt(CURLOPT_URL, $theURL);
$c->setopt(CURLOPT_HEADER, false);
$c->setopt(CURLOPT_RETURNTRANSFER, true);
$c->setopt(CURLOPT_TIMEOUT, 10);
$c->setopt(CURLOPT_CONNECTTIMEOUT, 10);
$c->setopt(CURLOPT_NOBODY, TRUE);
$c->setopt(CURLOPT_FOLLOWLOCATION, TRUE);
$c->setopt(CURLOPT_MAXREDIRS, 2);
// Within Class
$theReturnValue = curl_exec($this->m_handle);
$this->m_status = curl_getinfo($this->m_handle) ;
,但它总是返回[download_content_length] => -1
即使没有CURLOPT_NOBODY
然而retrived数据(整个文件)是正确的。
也许服务器ISN”发送“内容长度”标题? – drudge 2011-04-01 20:22:07
对不起,没有足够的信息(我已经编辑了问题)..但是,这似乎确实如此,当我想检索html页面时应该怎么做? – Shishant 2011-04-01 20:28:18