我很好奇为什么urllib2模块返回带空体的html。我确信我在那里放置了一个正确的网址。即使我尝试使用chrome查看源代码,页面也不会显示整个html代码。以下是其中一页:http://www.firmy.cz/Velkoobchod-a-vyroba/Vyrobci-papiroveho-a-polygrafickeho-zbozi/Nakladatele-a-vydavatele?geo=0
Urllib2返回带空体的html
如何解决此问题?
这是我的一段代码,但我认为问题是在其他地方根据铬显示相同的代码。
def getSoup(url):
req = urllib2.Request(url)
response = urllib2.urlopen(req)
page = response.read()
soup = BeautifulSoup(page, 'lxml')
return soup
此代码返回:
...
..
.. some head etc...
<meta content="!" name="fragment"/>
</head>
<body class="root" id="root"></body>
</html>
正如你所看到的,身体是空的。
任何代码?你在做什么? –
我已经参加了我的问题的代码,但我认为问题是在别的地方。正如我写的,即使是一个Chrome显示不完整的源代码。 –
有趣的是,我似乎得到了一些[代码](http://pastebin.com/jFixSCu9)。网站中的body标签本身对我来说也没有任何内容,可能有些JS正在做魔术。 –