我正在追踪我的previous question。合并/连接CSV导入的数据框并删除重复项
已经整理了一个循环来导入CSV,连接数据并删除重复项。
files = glob.glob('./A08_csv/A08_B1_T*.csv')
dfs = [pd.read_csv(fp, index_col=[0], parse_dates=[0], dayfirst=True) for fp in files]
df = pd.concat(dfs)
df_purged = df.drop_duplicates(inplace=True)
print df_purged
然而df.drop_duplicates(就地= TRUE)不工作(当然,我失去了一些东西),并打印返回一个空。我如何指定通过索引检查重复项?添加列名似乎不起作用。
此外,我怎样才能将这个循环转换成一个公式,所以我可以将这个递归输入应用于csv,具有不同的文件名(即可以用于A08_B1_T * .csv(卧室)和A08_KI_T * .csv(厨房)等)?
当然,它会(我试过),但proble m是我希望根据索引(日期和时间)识别重复项,并且不知道如何使用索引而不是'col_name'。 如果我输入:'df.drop_duplicates(['Date Time'])'这是csv的列名,那么我得到一个关键错误 – Andreuccio
让我知道如果编辑工作 – SerialDev
Cmari,谢谢你。 现在我得到'KeyError:'index''。 – Andreuccio