我有一个大的csv文件,时间戳数据的格式为2015-04-01 10:26:41
。数据跨越多个月,记录范围从30秒到多个小时不等。它的列是id,时间,速度。组熊猫使用特定时间间隔的时间序列数据帧
最终我想按15分钟的时间间隔对数据进行分组,然后计算平均速度,但是很多条目都在15分钟的时间段内。
我想使用熊猫,因为它看起来像它有一个固定的时间序列工具,它可能很容易做到这一点,但我正在落在第一个障碍。
到目前为止,我已经将CSV导入为数据框,并且所有列的dtype为object
。我按日期对数据进行了排序,现在我试图按照时间间隔对这些条目进行分组,这就是我正在挣扎的地方。基于谷歌搜索,我试图resample
使用此代码的数据df.resample('5min', how=sum)
在这里我得到的错误TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex
。我在考虑尝试使用groupby
方法,或许使用lambda
,如df.groupby(lambda x:x.minutes + 5)
这会产生错误AttributeError: 'str' object has no attribute 'minutes'
。
基本上,我对a)熊猫是否有时间系列数据有一个格式认识,因为它的dtype
是object
和b)如果它可以识别它我似乎无法得到时间间隔下降。
渴望学习,如果有人能指出我在正确的方向。
DF看起来像这样
0 1 2 3
0 id boat_id time speed
1 386226 32 2015-01-15 05:14:32 4.2343243
2 386285 32 2015-01-15 05:44:57 3.45234