我是新来的python,并试图使用urllib2/lxml来获取和解析页面。一切似乎都很好,除了解析的页面在我的浏览器中打开时似乎嵌入了奇怪的字符。我猜这是一个unicode/lxml解析问题。当我得到一个元素的文本内容,使用.text_content(),并打印它时,我在原始页面中获得诸如“sometext \ 342 \ 200 \ 223 moretext”之类的东西,这显示为“sometext - moretext”urllib2/lxml编码问题
有谁能告诉我:
1.发生了什么事?
2.我该如何解决?
3.我可以在哪里阅读这些编码问题?
谢谢!
你能不能举个例子?无论是代码还是准确的结果,不仅仅是“像”blabla“”之类的东西,或者最好是两者。另外,我们正在谈论蟒蛇2或3? – 2010-12-10 22:31:14
你可以粘贴一些代码,并确切显示发生了什么? – 2010-12-10 22:31:33