我有一个熊猫DataFrame,其中包含一个管道分隔的字符串在其中一个字段中。我将它分成了一个apply
内的列表,并将其添加到DataFrame中。管道分隔字符串中值的数量和内容各不相同。将尺寸添加到熊猫DataFrame
df = DataFrame([{'wibble': 'a', 'pipestring': 'aa|aaa|aaa'},
{'wibble': 'b', 'pipestring': 'bb|bbbb|bbb|bbbbbb'}])
df['pipelist'] = df['pipestring'].map(lambda x: x.split('|'))
我是很新,大熊猫所以可能是完全错误的这一点,但我认为这将通过与多个指数水平的数据帧进行更好的体现,所以我可以利用熊猫的索引和其他(精彩)工具。但我无法弄清楚如何做到这一点。任何指针/建议我应该做什么,而非常感激。
谢谢 - 这正是我想要做的。我唯一的问题(再次请原谅我的无知)是我必须将系列丛书转换成列表,然后再返回到熊猫来格式化输出中的东西(否则我得到了一个DataFrame系列)'x = DataFrame(list(df ['pipestring'] .application(lambda x:pd.Series(x.split('|')))))'再次感谢! – meloncholy 2013-03-13 19:25:04
这应该适用于0.10.1或> – Jeff 2013-03-13 20:19:22
您是对的。我没有意识到,但我正在运行0.9.1。现在更新... – meloncholy 2013-03-13 20:45:34