2017-05-06 63 views
0

我对Python很新颖,没有经验,但我希望有人能帮助我解决这个问题。我在Google上没有找到任何(可以理解的)答案。使用python解码CSV文件中的单个列3 Base64

我有一个包含多列的大(10GB)CSV文件。除了一列外,所有列都是“正常”的人类可读文本。该列是二进制的。我想解码并将解码后的数据写回到CSV文件中。

这是我到目前为止,但我有一种感觉,我走了。任何帮助,将不胜感激!

import base64 
import pandas as pd 



df = pd.read_csv('sample.csv', delimiter=';', 
       usecols=[3], dtype=object, header=None,) 
decoded_binary_data = base64.b64decode(df) 

print(decoded_binary_data) 

样本CSV的:

"5f8ebfd8-7d12-4659-a416-e5dcbe056d0a";"6";"1";**ez??R?+??a)??? 
Cs**;0;0;0;74;1720; 
  • 编辑清理的CSV文件的位。
  • 编辑添加样本数据帧数据帧的

样本:

0          ez??R?+??a)???Cs 
1      B?t?a?h?kwd?W-]\???fc?m[m?A}??? 
2      ?eE????3r??c??T????fc?m[m?A}??? 
3      ?eE????3r??c??T????fc?m[m?A}??? 
4      ?eE????3r??c??T????fc?m[m?A}??? 
5      B?t?a?h?kwd?W-]\???fc?m[m?A}??? 
+0

您可以发布一个小样本数据集(带有一些编码数据)? – MaxU

+0

它看起来不像一个健康的CSV文件 - 它在不同的行中有不同的列数 – MaxU

+0

csv文件来自哪里? –

回答