2017-05-30 73 views
1

我在Python中有一组记录,包含一个id,至少一个属性和一组日期范围。我希望获取每个ID的代码,并将所有属性匹配的记录组合在一起,并且在日期范围内没有空白。在熊猫数据框中组合日期范围

由于日期范围没有空隙,我的意思是一个记录的结束日期大于或等于该id的下一个记录。

例如,具有ID“10”,开始日期“2016-01-01”和结束日期“2017-01-01”的记录可以与具有该ID的另一记录合并,开始日期“2017 -01-01“,结束日期为”2018-01-01“,但不能与”2017-01-10“开始的记录合并,因为与2017-01-01之间存在差距-01至2017-01-09。

下面是一些例子 -

有:

FruitID,FruitType,StartDate,EndDate 
1,Apple,2015-01-01,2016-01-01 
1,Apple,2016-01-01,2017-01-01 
1,Apple,2017-01-01,2018-01-01 
2,Orange,2015-01-01,2016-01-01 
2,Orange,2016-05-31,2017-01-01 
2,Orange,2017-01-01,2018-01-01 
3,Banana,2015-01-01,2016-01-01 
3,Banana,2016-01-01,2017-01-01 
3,Blueberry,2017-01-01,2018-01-01 
4,Mango,2015-01-01,2016-01-01 
4,Kiwi,2016-09-15,2017-01-01 
4,Mango,2017-01-01,2018-01-01 

旺旺:

FruitID,FruitType,NewStartDate,NewEndDate 
1,Apple,2015-01-01,2018-01-01 
2,Orange,2015-01-01,2016-01-01 
2,Orange,2016-05-31,2018-01-01 
3,Banana,2015-01-01,2017-01-01 
3,Blueberry,2017-01-01,2018-01-01 
4,Mango,2015-01-01,2016-01-01 
4,Kiwi,2016-09-15,2017-01-01 
4,Mango,2017-01-01,2018-01-01 

我目前的解决方案如下。它提供了我正在寻找的结果,但对于大型数据集,性能似乎并不好。此外,我的印象是,您通常希望避免在可能的情况下迭代数据帧的各个行。非常感谢您提供的任何帮助!

import pandas as pd 
from dateutil.parser import parse 

have = pd.DataFrame.from_items([('FruitID', [1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4]), 
           ('FruitType', ['Apple', 'Apple', 'Apple', 'Orange', 'Orange', 'Orange', 'Banana', 'Banana', 'Blueberry', 'Mango', 'Kiwi', 'Mango']), 
           ('StartDate', [parse(x) for x in ['2015-01-01', '2016-01-01', '2017-01-01', '2015-01-01', '2016-05-31', 
                    '2017-01-01', '2015-01-01', '2016-01-01', '2017-01-01', '2015-01-01', '2016-09-15', '2017-01-01']]), 
           ('EndDate', [parse(x) for x in ['2016-01-01', '2017-01-01', '2018-01-01', '2016-01-01', '2017-01-01', 
                   '2018-01-01', '2016-01-01', '2017-01-01', '2018-01-01', '2016-01-01', '2017-01-01', '2018-01-01']]) 
           ]) 

have.sort_values(['FruitID', 'StartDate']) 

rowlist = [] 
fruit_cur_row = None 

for row in have.itertuples(): 
    if fruit_cur_row is None: 
     fruit_cur_row = row._asdict() 
     fruit_cur_row.update(NewStartDate=row.StartDate, NewEndDate=row.EndDate) 

    elif not(fruit_cur_row.get('FruitType') == row.FruitType): 
     rowlist.append(fruit_cur_row) 

     fruit_cur_row = row._asdict() 
     fruit_cur_row.update(NewStartDate=row.StartDate, NewEndDate=row.EndDate) 

    elif (row.StartDate <= fruit_cur_row.get('NewEndDate')): 
     fruit_cur_row['NewEndDate'] = max(fruit_cur_row['NewEndDate'], row.EndDate) 
    else: 
     rowlist.append(fruit_cur_row) 
     fruit_cur_row = row._asdict() 
     fruit_cur_row.update(NewStartDate=row.StartDate, NewEndDate=row.EndDate) 

rowlist.append(fruit_cur_row) 
have_mrg = pd.DataFrame.from_dict(rowlist) 
print(have_mrg[['FruitID', 'FruitType', 'NewStartDate', 'NewEndDate']]) 
+0

你能不能解释一下什么样的手段“日期范围内没有差距”?我无法理解这个问题。谢谢。 –

+0

我已更新我的帖子,以包含有关“无间隙”的更多详细信息,以尝试澄清此问题。 – Netbrian

回答

1

使用嵌套groupby方法:

def merge_dates(grp): 
    # Find contiguous date groups, and get the first/last start/end date for each group. 
    dt_groups = (grp['StartDate'] != grp['EndDate'].shift()).cumsum() 
    return grp.groupby(dt_groups).agg({'StartDate': 'first', 'EndDate': 'last'}) 

# Perform a groupby and apply the merge_dates function, followed by formatting. 
df = df.groupby(['FruitID', 'FruitType']).apply(merge_dates) 
df = df.reset_index().drop('level_2', axis=1) 

注意,这种方法假定您的日期已经排序。如果没有,您需要首先在您的DataFrame上使用sort_values。如果您有嵌套的日期跨度,此方法可能不起作用。

输出结果:

FruitID FruitType StartDate  EndDate 
0  1  Apple 2015-01-01 2018-01-01 
1  2  Orange 2015-01-01 2016-01-01 
2  2  Orange 2016-05-31 2018-01-01 
3  3  Banana 2015-01-01 2017-01-01 
4  3 Blueberry 2017-01-01 2018-01-01 
5  4  Kiwi 2016-09-15 2017-01-01 
6  4  Mango 2015-01-01 2016-01-01 
7  4  Mango 2017-01-01 2018-01-01 
+0

这种方法似乎是解决问题的最简洁的方法。非常感谢你! – Netbrian

0

这里是我想出了...

df = pd.melt(data, id_vars=['FruitID', 'FruitType'], var_name='WhichDate', value_name='Date') 
df['Date'] = pd.to_datetime(df['Date']) 
df = df.sort_values(['FruitType', 'Date']).drop_duplicates(['FruitType', 'Date']) 
df = df.assign(Counter = np.nan) 
StartDf = df[df['WhichDate']=='StartDate'] 
StartDf = StartDf.assign(Counter=np.arange(len(StartDf))) 
df[df['WhichDate']=='StartDate'] = StartDf 
df.fillna(method='ffill', inplace=True) 
s = df.groupby(['Counter', 'FruitID', 'FruitType']).agg({'Date': [min, max]}).rename(columns={'min': 'NewStartDate', 'max': 'NewEndDate'}) 
s.columns = s.columns.droplevel() 
s = s.reset_index() 
del s['Counter'] 
s = s.sort_values(['FruitID', 'FruitType']).reset_index(drop=True) 

,输出...

FruitID FruitType NewStartDate NewEndDate 
0  1  Apple 2015-01-01 2018-01-01 
1  2  Orange 2015-01-01 2016-01-01 
2  2  Orange 2016-05-31 2018-01-01 
3  3  Banana 2015-01-01 2017-01-01 
4  3 Blueberry 2017-01-01 2018-01-01 
5  4  Kiwi 2016-09-15 2017-01-01 
6  4  Mango 2015-01-01 2016-01-01 
7  4  Mango 2017-01-01 2018-01-01 

说明

首先,我重新创建你的数据帧。

data = pd.DataFrame({'FruitID' : [1,1,1,2,2,2,3,3,3,4,4,4], 
        'FruitType': ['Apple', 'Apple', 'Apple', 'Orange', 'Orange', 'Orange', 'Banana', 'Banana', 
            'Blueberry', 'Mango', 'Kiwi', 
            'Mango'], 
      'StartDate': ['2015-01-01', '2016-01-01', '2017-01-01', '2015-01-01', '2016-05-31', 
          '2017-01-01', '2015-01-01', '2016-01-01', '2017-01-01', '2015-01-01', 
          '2016-09-15', '2017-01-01'], 
      'EndDate' : ['2016-01-01', '2017-01-01', '2018-01-01', '2016-01-01', '2017-01-01', 
         '2018-01-01', '2016-01-01', '2017-01-01', '2018-01-01', '2016-01-01', '2017-01-01', 
         '2018-01-01']}) 

接下来,我用熊猫melt函数将数据重塑到长格式。

df = pd.melt(data, id_vars=['FruitID', 'FruitType'], var_name='WhichDate', value_name='Date') 

然后,我按日期排序为每个果型和重复的日期

df['Date'] = pd.to_datetime(df['Date']) 
df = df.sort_values(['FruitType', 'Date']).drop_duplicates(['FruitType', 'Date']) 

创建用来标记与起始日期每行一个辅助列中删除任何行。在做groupby之前,我们需要这样做。然后使用fillna来帮助分组。

df = df.assign(Counter = np.nan) 
StartDf = df[df['WhichDate']=='StartDate'] 
StartDf = StartDf.assign(Counter=np.arange(len(StartDf))) 
df[df['WhichDate']=='StartDate'] = StartDf 
df.fillna(method='ffill', inplace=True) 

最后,我们使用groupbyagg获得每个分区的minmax日期。

s = df.groupby(['Counter', 'FruitID', 'FruitType']).agg({'Date': [min, max]}).rename(columns={'min': 'NewStartDate', 'max': 'NewEndDate'}) 
s.columns = s.columns.droplevel() 
s = s.reset_index() 
del s['Counter'] 
s = s.sort_values(['FruitID', 'FruitType']).reset_index(drop=True) 
+0

这似乎非常接近,但输出结果似乎比我习惯的结构不同。当我运行s = s.sort_values(['FruitID','FruitType']) print(s.info()))时,NewStartDate和NewEndDate字段似乎在不同的级别上(我不太熟悉)作为ID? – Netbrian

+0

请参阅我的代码的更新。我添加了一条从多级索引索引中删除'Date'的行 –