我寻求帮助调试机械化。当我导航到一个页面并尝试调用.read()时,每5次尝试中就有1次出现非Unicode结果。非Unicode结果如下所示:蟒蛇机械化奇.read()输出
URW¤cêLÒ0T¸²ÖþF\ <为
+€²Ü@9‚ÈøMq1;=®}ÿ½8¹WP[ëæåñ±øþûÚc!ˆÍzòØ埿þUüþf>àSÕ‹‚~é÷bƪ}Ãp#',®ˆâËýÊæÚ³õµÊZñMyô‘;–sä„IWÍÞ·mwx¨|ýHåÀ½A ºÒòÀö QNqÒ4O{Žë+óZu"úÒ¸½vº³ÔP”º‘c
C-EA#< 31 {HiºF4N¨ÂÀ“U'>•苏澳€ù±§¶8ÑWEú(ƒ “CAWA〜‡‡-J $ $ÁvQìfj²aDdªÐŠÐ5[U(4` OEU“ - <Œndû8mØïõ7;”ZO€F°¬ @ X€*õäŠxŸÊ%UAO =kôc¡¢ØyœÑy³í> EU-¥M +ßê¸ïmìYcãa®-Ø•†ê¸îmq«X}我¥GEŽj]ÏëUÆËGS°êõ½AxwÕμêúR¶à|ôO¹ýüà:SS‡® U%}•Cî3ãg〜QÛó'Ó]在[FwuCm6žš[«J®™> Y-£A~Ö€sμ1khí“”/\ S〜U£C7²Í#WN»@ç@所以,ÆQèÊôó®.ä(å *æ‡#÷»'缘分{à~Õ“所以%@ TL†¸±¹åI{“OV#³ëŠUG内容S‡•·AII»8¡Ò| O«A4€¼d¸-áÐåqA'ï$Ø[ NOO£ø\ S Z_¾^ AOO〜<Ú¿Ùÿ]一种@@被%¶Á$ |G OE·ò} [μ+>ðμ°ÍöÐμR1úQ-& PAYT¥¢DI + |?的«U,A,ÛQ㤚Ӣ ÏìÙT££šÚA䡳
我曾尝试正常机械化解析器(mechanize.Browser()
)以及常用建议的替代(factory=mechanize.RobustFactory()
)。
为下一步有什么建议?
这是gzip压缩的网站内容? – 2012-07-11 16:10:21
是的,我将'set_handle_gzip()'设置为True,并清除了问题。但是,我不明白为什么它会正确读取没有'set_handle_gzip()'选项的页面_some_。 – user1515534 2012-07-11 20:34:01
并非所有网页都启用了gzip。如果这解决了你的问题,发布答案并标记为答案。 – 2012-07-11 20:55:12