4
给定一个文本文件(或unicode字符串),有什么方法可以检测字符是否在ascii编码之外?我可以很容易地迭代每个字符到ord()
,但我想知道是否有更高效,优雅或惯用的方法来做到这一点。检测unicode字符串中的非ASCII字符
这里的最终目标是编译无法编码为ascii的数据中的字符列表。
万一它很重要,我的语料库的大小约为500MB/1200个文本文件。在Win7(64位)上运行(预编译的vanilla)Python 3.3.1。
看看[str.translate](http://docs.python .ORG /库/ stdtypes.html#str.translate) –