2009-01-23 73 views

回答

27

有几种解决方案(默认情况下,它们被丢弃)。以下是使用HEADERFUNCTION选项的 示例,可让您指定 函数来处理它们。

其他解决方案是WRITEHEADER选项(与 WRITEFUNCTION不兼容)或将HEADER设置为True,以便将它们传送到身体上 。

#!/usr/bin/python 

import pycurl 
import sys 

class Storage: 
    def __init__(self): 
     self.contents = '' 
     self.line = 0 

    def store(self, buf): 
     self.line = self.line + 1 
     self.contents = "%s%i: %s" % (self.contents, self.line, buf) 

    def __str__(self): 
     return self.contents 

retrieved_body = Storage() 
retrieved_headers = Storage() 
c = pycurl.Curl() 
c.setopt(c.URL, 'http://www.demaziere.fr/eve/') 
c.setopt(c.WRITEFUNCTION, retrieved_body.store) 
c.setopt(c.HEADERFUNCTION, retrieved_headers.store) 
c.perform() 
c.close() 
print retrieved_headers 
print retrieved_body 
+0

我想使用它而不必检索内容。有没有办法做到这一点?我的内容很大(1.4GB或类似),我只需要知道大小,而不是内容。 – Alfe 2013-02-20 15:12:24

+0

@Alfe试图让```HEAD```请求代替``GET```,就像```c.setopt(pycurl.CUSTOMREQUEST,“HEAD”)``` – Serge 2014-12-05 14:35:08

+0

哇,这是一个晚了后续,但无论如何谢谢你。但现在很久以前了......可能是因为我这样做了,但实际上,我不记得: - } – Alfe 2014-12-05 20:50:26

1

这可能会或可能不适合你的选择:

import urllib 
headers = urllib.urlopen('http://www.pythonchallenge.com').headers.headers 
6

哪吒互生,human_curl用法:PIP human_curl

In [1]: import human_curl as hurl 

In [2]: r = hurl.get("http://stackoverflow.com") 

In [3]: r.headers 
Out[3]: 
{'cache-control': 'public, max-age=45', 
'content-length': '198515', 
'content-type': 'text/html; charset=utf-8', 
'date': 'Thu, 01 Sep 2011 11:53:43 GMT', 
'expires': 'Thu, 01 Sep 2011 11:54:28 GMT', 
'last-modified': 'Thu, 01 Sep 2011 11:53:28 GMT', 
'vary': '*'} 
8
import pycurl 
from StringIO import StringIO 

headers = StringIO() 

c = pycurl.Curl() 
c.setopt(c.URL, url) 
c.setopt(c.HEADER, 1) 
c.setopt(c.NOBODY, 1) # header only, no body 
c.setopt(c.HEADERFUNCTION, headers.write) 

c.perform() 

print headers.getvalue() 

根据需要添加任何其他卷曲setopts /所需的,如FOLLOWLOCATION。