2017-03-08 100 views
1

我在列中有一个带有时间戳的pandas.DataFrame。这些值在时间上相隔0.1秒。值如1488771900.100000, 1488771900.200000等。但是,缺少值。所以我有1488794389.500000,然后1488794389.900000与3之间的缺失值。我想插入数据框中的行,并在此列中的最大值和最小值之间缺少值。所以,如果最小值为1488771900.000000,最大值为1488794660.000000,我想插入所有其他列中所有值相隔0.1秒的NA和NA。在熊猫数据框中添加缺失时间

我在link看到了一个答案,但无法复制相同的结果。

如何执行此操作?

+0

该链接后应该已经工作,请发表原料数据,创建df的代码,您的尝试和任何错误 – EdChum

回答

2

您可以使用pandas.DataFrame.resample填写缺失的时间。需要注意的是数据帧需要有一个pandas.DateTimeIndex。在你的情况下,这个时间很可能在时间以秒为单位被存储为一个浮点数,这需要在重新采样之前进行转换。这是一个将执行该操作的函数。

代码:

import datetime as dt 
import pandas as pd 

def resample(dataframe, time_column, sample_period): 
    # make a copy of the dataframe 
    dataframe = dataframe.copy() 

    # convert epoch times to datetime 
    dataframe.time = dataframe.time.apply(
     lambda ts: dt.datetime.fromtimestamp(ts)) 

    # make the datetimes into an index 
    dataframe.set_index(time_column, inplace=True) 

    # resample to desired period 
    dataframe = dataframe.resample(sample_period).asfreq().reset_index() 

    # convert datetimes back to epoch 
    epoch = dt.datetime.fromtimestamp(0) 
    dataframe.time = dataframe.time.apply(
     lambda ts: (ts - epoch).total_seconds()) 
    return dataframe 

测试代码:

values = [ 
    (1488771900.10, 'a'), 
    (1488771900.20, 'b'), 
    (1488771900.30, 'c'), 
    (1488771900.60, 'f'), 
] 
columns = ['time', 'value'] 
df = pd.DataFrame(values, columns=columns) 
print(df) 

new_df = resample(df, 'time', '100ms') 
print(new_df) 

结果:

  time value 
0 1.488772e+09  a 
1 1.488772e+09  b 
2 1.488772e+09  c 
3 1.488772e+09  f 

      time value 
0 1.488772e+09  a 
1 1.488772e+09  b 
2 1.488772e+09  c 
3 1.488772e+09 NaN 
4 1.488772e+09 NaN 
5 1.488772e+09  f 
+0

这是一个很好的答案,但'.apply()'在较大的数据帧上可能会很慢。相反,也许可以查看'df ['time'] = pd.to_datetime(df ['time'],unit ='s')'(more [here](https://stackoverflow.com/a/19231939/2327328 )) – philshem