0
我有一个数据帧如下:部分Multiindexing与熊猫数据帧
df = pd.DataFrame(columns=['New Category', 'Sample1', 'Sample2'],
data=[
['Pathogenic/Likely Pathogenic', '0/0:240', '1/0:100'],
['Likely Benign', '1/1:0,237', '1/0:700'],
['Likely Benign', '0/0:239', '0/0:234'],
['Likely Benign', '1/1:1,238', '0/1:890'],
['Likely Benign', '0/1:156,79', '1/1:767'],
['VUS', '1/1:0,241', '0/1:21']
])
,看起来像这样:
New Category Sample1 Sample2
0 Pathogenic/Likely Pathogenic 0/0:240 1/0:100
1 Likely Benign 1/1:237 1/0:700
2 Likely Benign 0/0:239 0/0:234
3 Likely Benign 1/1:238 0/1:890
4 Likely Benign 0/1:156 1/1:767
5 VUS 1/1:241 0/1:21
我想要做一些multiindexing从而使样本1和样本2的值被分割由冒号放在下面作为子列名称。但是,我不希望这些子列名称应用于新类别列。基本上我希望它看起来像这样:
New Category Sample1 Sample2
GT GQ GT GQ
0 Pathogenic/Likely Pathogenic 0/0 240 1/0 100
1 Likely Benign 1/1 237 1/0 700
2 Likely Benign 0/0 239 0/0 234
3 Likely Benign 1/1 238 0/1 890
4 Likely Benign 0/1 156 1/1 767
5 VUS 1/1 241 0/1 21
我真的很难过如何做到这一点。熊猫文档的multiindexing页面不包含仅在选定列上进行多重索引的示例。这使我们想知道这是否可能。
谢谢!这似乎有伎俩。然而,代码让我感到头痛,我会玩弄它直到我完全理解。 – DDRRpy
确实,我在一个命令中展示了它“尽可能与索引相似”,但我不建议在您的代码库中使用这种恐怖,更好地分割它:-) –