在本例中,我们有两天的数据采样时间为1分钟,给我们2880次测量。测量结果依次收集到多个时区:欧洲/伦敦的前240分钟以及'America/Los_Angeles'中剩余的2640个测量值。根据当地时间(HH:MM)计算24小时周期内的每分钟平均销售量
import pandas as pd
import numpy as np
df=pd.DataFrame(index=pd.DatetimeIndex(pd.date_range('2015-03-29 00:00','2015-03-30 23:59',freq='1min',tz='UTC')))
df.loc['2015-03-29 00:00':'2015-03-29 04:00','timezone']='Europe/London'
df.loc['2015-03-29 04:00':'2015-03-30 23:59','timezone']='America/Los_Angeles'
df['sales1']=np.random.random_integers(100,size=len(df))
df['sales2']=np.random.random_integers(10,size=len(df))
要计算多日的24小时周期平均销售每分钟(根据UTC时间)以下方法效果很好:
utc_sales=df.groupby([df.index.hour,df.index.minute]).mean()
utc_sales.set_index(pd.date_range("00:00","23:59", freq="1min").time,inplace=True)
这GROUPBY方法也可以应用于计算基于其他两个时区之一的平均销售额,例如“欧洲/伦敦”。
df['London']=df.index.tz_convert('Europe/London')
london_sales=df.groupby([df['London'].dt.hour,df['London'].dt.minute]).mean()
london_sales.set_index(pd.date_range("00:00","23:59", freq="1min").time,inplace=True)
但是我挣扎拿出一个24小时的周期计算每分钟每-as平均localtime-销售的有效方式。我尝试了上面的相同方法,但是当同一系列中存在多个时区时,groupby将恢复到utc中的索引。
def calculate_localtime(x):
return pd.to_datetime(x.name,unit='s').tz_convert(x['timezone'])
df['localtime']=df.apply(calculate_localtime,axis=1)
local_sales=df.groupby([df['localtime'].dt.hour,df['localtime'].dt.minute]).mean()
local_sales.set_index(pd.date_range("00:00","23:59",freq="1min").time,inplace=True)
我们可以验证local_sales是否与utc_sales相同,因此此方法不起作用。
In [8]: np.unique(local_sales == utc_sales)
Out[8]: array([ True], dtype=bool)
任何人都可以推荐一种适用于大型数据集和多个时区的方法吗?