我想使用https://github.com/datamade/dedupe来删除python中的一些记录。看他们的例子Python重复数据删除记录 - 重复数据删除
data_d = {}
for row in data:
clean_row = [(k, preProcess(v)) for (k, v) in row.items()]
row_id = int(row['id'])
data_d[row_id] = dict(clean_row)
字典消耗了相当多的内存,一个由pandas创建的字典,一个pd.Datafrmae,甚至一个普通的pd.Dataframe。
如果这种格式是必需的,我怎样才能有效地将pd.Dataframe转换成这样的字典?
编辑
例什么大熊猫产生
{'column1': {0: 1389225600000000000,
1: 1388707200000000000,
2: 1388707200000000000,
3: 1389657600000000000,....
例什么重复数据删除预计
{'1': {column1: 1389225600000000000, column2: "ddd"},
'2': {column1: 1111, column2: "ddd} ...}
您可以使用'DataFrame.to_dict()'将Pandas Dataframe转换为字典,这就是您要查找的内容吗? –
事实上,这是列>索引>值,他们似乎需要索引>列>价值,它重新生成每个记录的列键 –
我认为这将从数据的例子大大受益。 – chthonicdaemon