我有一个有21列的熊猫数据框。我将重点放在具有完全相同的列数据值的行的子集上,除了每行独有的6以外。我不知道哪些列标题这6个值对应于先验。比较熊猫数据帧的行(行有一些重叠的值)
我试着将每一行转换为索引对象,并对两行执行set操作。防爆。
row1 = pd.Index(sample_data[0])
row2 = pd.Index(sample_data[1])
row1 - row2
它返回包含row1唯一值的Index对象。然后我可以手动推断哪些列具有唯一值。
如何以编程方式获取这些值在初始数据框中对应的列标题?或者,有没有办法比较两个或多个数据框行并提取每行的6个不同列值以及相应的标题?理想情况下,使用独特的列生成新的数据框会很好。
特别是,有没有办法使用set操作来做到这一点?
谢谢。
因此,有哪些是15合普通一组行,6个不同的行以及其他不遵循此模式的行? [IOW,我们是否必须检测这个“行子集”或已经完成?] – DSM 2013-05-14 00:56:52
可以发布几行样本行吗? – Jeff 2013-05-14 02:02:04