我有以下代码打开和读取网址:Python的urllib2的解码块编码
html_data = urllib2.urlopen(req).read()
,我相信这是读取HTTP数据的最标准的方式。 然而,当响应具有chunked tranfer-encoding,响应开始与以下字符:
1eb0\r\n2625\r\n
<?xml version="1.0" encoding="UTF-8"?>
...
发生这种情况,由于上述分块编码所提到的,因此我的XML数据已损坏。
所以我想知道如何摆脱所有与分块编码有关的元数据?
当您尝试加载在Web浏览器的源数据会发生什么\ r \ n是段开始/停止(十六进制)的位置?你有1eb0还是2625?那些(和其他)数字是否一致? – chaimp
不,浏览器正确处理它 – dragoon