2012-07-11 86 views
0

我寻求帮助调试机械化。当我导航到一个页面并尝试调用.read()时,每5次尝试中就有1次出现非Unicode结果。非Unicode结果如下所示:蟒蛇机械化奇.read()输出

URW¤cêLÒ0T¸²ÖþF\ <为+€²Ü@9‚ÈøMq1;=®}ÿ½8¹WP[ëæåñ±øþûÚc!ˆÍzòØ埿þUüþf>àSÕ‹‚~é÷bƪ}Ãp#',®ˆâËýÊæÚ³­õµÊZñMyô‘;–sä„IWÍÞ·mwx¨|ýHåÀ½A ºÒòÀö QNqÒ4O{Žë+óZu"úÒ¸½vº³ÔP”º‘c C-EA#< 31 {HiºF4N¨ÂÀ“U'>•苏澳€ù±§¶8ÑWEú(ƒ “CAWA〜‡‡-J $ $ÁvQìfj²aDdªÐŠÐ5[U(4` OEU“ - < Œndû8mØïõ7;”ZO€F°¬ @ X€*õäŠxŸÊ%UAO =kôc¡¢ØyœÑy³í> EU-¥M +ßê¸ïmìYcãa®-Ø•†ê¸îmq«X}我¥GEŽj]ÏëUÆËGS°êõ½AxwÕμêúR¶à|ôO¹ýüà:SS‡® U%}•Cî3ãg〜QÛó'Ó]在[FwuCm6žš[«J®™> Y-£A~Ö€sμ1khí“”/\ S〜U£C7²Í#WN»@ç@所以,ÆQèÊôó®.ä(å *æ‡#÷»'缘分{à~Õ“所以%@ TL†¸±¹åI{“OV#³ëŠUG内容S‡•·AII»8¡Ò| O«A4€¼d¸-áÐåqA'ï$Ø[ NOO£ø\ S Z_¾^ AOO〜<Ú¿Ùÿ]一种@@被%¶Á$ |G OE·ò} [μ+>ðμ°ÍöÐμR1úQ-& PAYT¥¢DI + |?的«U,A,ÛQ㤚Ӣ ÏìÙT££šÚA䡳

我曾尝试正常机械化解析器(mechanize.Browser())以及常用建议的替代(factory=mechanize.RobustFactory())。

为下一步有什么建议?

+0

这是gzip压缩的网站内容? – 2012-07-11 16:10:21

+0

是的,我将'set_handle_gzip()'设置为True,并清除了问题。但是,我不明白为什么它会正确读取没有'set_handle_gzip()'选项的页面_some_。 – user1515534 2012-07-11 20:34:01

+0

并非所有网页都启用了gzip。如果这解决了你的问题,发布答案并标记为答案。 – 2012-07-11 20:55:12

回答

0

问题解决了:

如果您收到类似的输出,检查页面标题,因为它是实例化浏览器后可能gzip压缩设置set_handle_gzip(True)

+0

如果您不希望获得更好的答案,请接受您的答案。点击答案左侧的勾号。 – kay 2012-07-13 00:07:09

+0

你不能投票给你自己的帖子,否则我会的。 – user1515534 2012-07-13 14:31:25

+0

你不能为它投票,但你可以接受它。 – kay 2012-07-13 19:36:04