2017-02-21 121 views
0

我必须解析从Web中获取的一些Web数据。 Web内容很可能是我处理的任何问题的不同区域语言。但也有出现在某些字符串如从Python中的字符串中删除奇怪的字符

我工作呢 8qîÚ4½-ôMºÝCQ'Dɬ)问+ R±}Ûýï7üÛ²ëlY& 53一些无​​效字符?|?8ïôóg/ ^ÿûêþIA#我¼ºy{ 5+B^ß¿ß~¾¿½|ÓûÆk.c¹~WÚ@ë¤KÈh4rF-G|!¹ÿ¬|a~μuÓñμ_»| THI 每天statstistics

我必须消除这种性格怪异和onyl提取有效字符串。我正在使用python。我用utf-8编码每个字符串。

+7

这些可能不是奇怪的字符。你只是使用错误的编码... –

+2

你如何定义一个“有效的字符串”? –

+0

@ juanpa.arrivillaga还是一个“奇怪”的角色? :) – DeepSpace

回答

1

如果你的意思是怪不-ascii的,你可以尝试:

import string 
"".join(filter(lambda char: char in string.printable, s)) 

其中S是你的字符串。 这里有一些你可以过滤的字符串常量: https://docs.python.org/3/library/string.html