我有一个使用bzip2压缩的wikipedia转储(从http://dumps.wikimedia.org/enwiki/下载),但我不想解压缩它:我想在进行解压缩的同时处理它。 我知道可以用普通的Java来完成它(例如见Java - Read BZ2 file and uncompress/parse on the fly),但是我想知道它在Apache Flink中是如何做到的?我可能需要的是
从存储器流BZ2我有CSV数据bz2压缩的数据的块在存储器 compressed = load_from_network_service(...)
我想迭代解压缩线的流。 for line in bz2_decompress_stream(compressed):
...
这样的功能是否存在? 原则上,我可以写入到磁盘,然后使用bz2.BZ2File,这似乎只需要消耗一个文件名