我有一个多索引的数据帧象下面这样: col1 col2 col3 col4
row1 0 A A b b
1 B B c c
row2 0 A B d d
1 B B e e
,并想知道例如串联信息的最有效方式对于ROW1 + COL1,ROW1 + COL2等,使得我的结果将是: col1 col2 col3 col4
row1 AB AB bc b
熊猫to_csv根据它们是多索引系列还是简单拆分的数据帧来写入大小不同的文件(后者似乎不足一半尺寸)。 从csv格式可能有一些背后的直觉,但我不能弄明白。 为什么熊猫系列在.csv格式上的数据帧大得多? 代码,以生成一个这样的例子: # imports
import pandas as pd
from numpy.random import random
from random import
给定两个熊猫数据帧dfa和dfb,我如何确保每个DataFrame的MultiIndex包含所有其他行? In [147]: dfa
Out[147]:
c
a b
0 5 10.0
1 6 11.0
2 7 12.0
3 8 13.5
4 9 14.0
In [148]: dfb
Out[148]:
c
a b
0 5 10
2 7 12