3
我想根据一组索引键获取Dask数据帧的行的子集。 (具体来说,我想查找其索引不在ddf2索引中的ddf1行)。Dask:通过索引从Dataframe中删除(或丢弃)行
cache.drop([overlap_list])
和diff = cache[should_keep_bool_array]
都会抛出NotImplementedException,否则不起作用。
这样做的最好方法是什么?
我想根据一组索引键获取Dask数据帧的行的子集。 (具体来说,我想查找其索引不在ddf2索引中的ddf1行)。Dask:通过索引从Dataframe中删除(或丢弃)行
cache.drop([overlap_list])
和diff = cache[should_keep_bool_array]
都会抛出NotImplementedException,否则不起作用。
这样做的最好方法是什么?
我不知道这是“最好”的方式,但在这里就是我最后做它:
pd.DataFrame(index=overlap_list)
)另一种可能性是:
df_index = df.reset_index()
df_index = df_index.dorp_dplicates()
dask中的索引操作的功能相当有限。例如,['Index.difference'](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.difference.html#pandas.Index.difference)将是直接的实现,但它的也没有实施。 –