2017-02-14 73 views
1

我目前工作的一个CSV数据集看起来像下面(参见下面的测试DF):如何根据熊猫中的多个条件来匹配和计算行数?

enter image description here

这些基本上是移动设备的位置的记录。 “标识符”唯一标识移动设备,“from_city”和“to_city”是相应的出发和到达城市。因此,对于标识符“A1”,该人在1月2日离开渥太华前往伦敦(记录编号2),并在1月3日返回(记录编号5)。而对于标识符为A2,B1,B2,B3和B6的记录,由于没有伦敦到渥太华的记录,它们将被视为无回报。

最终,我想要做的是找出所有出发和返回的匹配项,并计算它们对于每个从到城市对。例如:

从渥太华到伦敦:共100次旅行,3天内返回80天,3天后返回10天,10次未返回。

我想我需要在使用标识符和其他列的熊猫中做groupby。但问题是我如何识别标识符组中的返回匹配?

从本质上讲,标准应该是:

  • 相同标识符
  • FROM_CITY和TO_CITY在两个记录之间逆转
  • 返回时间应该是晚于发车时间

加,我如何嵌入3天内的标准?

在此先感谢您的帮助!

下面是测试数据帧:

df = pd.DataFrame({ 
    'Identifier': ['A1', 'A2', 'A3', 'A1', 'A3', 'B1', 'C3', 'B2', 'B3', 'B6', 'C3'], 
    'OS': ['iphone', 'iphone', 'iphone', 'iphone', 'iphone', 'iphone', 'iphone', 'iphone', 'iphone', 'iphone', 'iphone'], 
    'from_city': ['ottawa', 'ottawa', 'ottawa', 'london', 'london', 'ottawa', 'ottawa', 'ottawa', 'ottawa', 'ottawa', 'london'], 
    'to_city': ['london', 'london', 'london', 'ottawa', 'ottawa', 'london', 'london', 'london', 'london', 'london', 'ottawa'], 
    'time': ['1/2/2017 21:00', '1/2/2017 20:00', '12/24/2016 13:00', '1/3/2017 21:00', '1/6/2017 0:00', 
      '12/10/2016 17:00', '12/22/2016 21:00', '12/17/2016 23:00', '12/14/2016 19:00', '12/20/2016 18:00', '1/3/2017 0:00'] 
}) 

注:在上述IMG 5日线的日期应为“2017年1月3日”,这是上面的固定代码。

回答

1

我终于想出了一个办法做到这一点:

def combine_cities(row): 
    if row['from_city'] < row['to_city']: 
     return row['from_city'] + ', ' + row['to_city'] 
    else: 
     return row['to_city'] + ', ' + row['from_city'] 

df['cities'] = df.apply(combine_cities, axis=1) 

def count_return(grp): 
    if grp.nunique() == 1: 
     return np.nan 
    else: 
     return 'return found' 

df.groupby(['cities', 'Identifier'])['from_city'].apply(count_return).dropna() 
1

如果每个标识符在您的数据集中只有一次往返,此方法可能有效。另外,我改变了time列第4单元的一年中你的样本数据帧到2017年

首先转换df['time']为DateTime。

duration = df.groupby('Identifier')['time'].apply(lambda x: max(list(x)) - min(list(x)))

然后用GROUPBY上Identifier,:

duration = df.groupby('Identifier')['time'].apply(lambda x: max(list(x)) - min(list(x)))

duration现在看起来像: A1 1 days 00:00:00 A2 0 days 00:00:00 A3 12 days 11:00:00 B1 0 days 00:00:00 B2 0 days 00:00:00 B3 0 days 00:00:00 B6 0 days 00:00:00 C3 11 days 03:00:00

现在选择是大于0天行,但不比3天。

duration[(duration > pd.Timedelta(days=0)) & (duration <= pd.Timedelta(days=3))]

导致: Identifier A1 1 days Name: time, dtype: timedelta64[ns]

+0

谢谢你@ user666!我会尝试它,并根据需要upvote和/或标记。 –

+0

看起来你的回答没有考虑到回报因素 - 城市对需要扭转,如果第一条记录是“渥太华伦敦”,那么基本上回报记录应该有“伦敦渥太华”。 –

+0

有意义,但是您的数据集没有这种情况。你能更新你的描述还是示例数据框? – user666

2
# change the type of 'time' column to timestamp 

df['timestamp']=pd.to_datetime(df['timestamp'], format='%m/%d/%Y %H:%M') 

# first use merge to get leave time and back time 

df = df.merge(df.set_index(['Identifier','from_city'])[['timestamp']], how='left', left_on=['Identifier','to_city'], right_index=True, suffixes=['_leave','_back']) 

# filter out invalid leave date and back date 

df = df.loc[~(df['timestamp_leave']>=df['timestamp_back'])] 

# calculate travel time 

df['duration'] = (df['timestamp_back'] - df['timestamp_leave']).dt.days 

use pd.cut to groupby 

df['group'] = pd.cut(df['duration'], [0,3,10,100]) 

返回值:

Identifier OS from_city timestamp_leave to_city timestamp_back duration group 
1 A2 iphone ottawa 2017-01-02 20:00:00 london NaT NaN NaN 
2 A3 iphone ottawa 2016-12-24 13:00:00 london 2017-01-06 00:00:00 12.0 (10, 100] 
3 A1 iphone london 2016-01-03 21:00:00 ottawa 2017-01-02 21:00:00 365.0 NaN 
5 B1 iphone ottawa 2016-12-10 17:00:00 london NaT NaN NaN 
6 C3 iphone ottawa 2016-12-22 21:00:00 london 2017-01-03 00:00:00 11.0 (10, 100] 
7 B2 iphone ottawa 2016-12-17 23:00:00 london NaT NaN NaN 
8 B3 iphone ottawa 2016-12-14 19:00:00 london NaT NaN NaN 
9 B6 iphone ottawa 2016-12-20 18:00:00 london NaT NaN NaN 
+0

谢谢@ heyu91!我会尝试它,并根据需要upvote和/或标记。 –

+0

我得到了一个错误,运行你的代码......“TypeError:不支持的操作数类型为 - :'str'和'str'”。你能给我一些进一步的指导吗? –

+0

我认为这是'时间'栏的类型。也许你的'时间'类型是字符串。尝试在代码开始处添加'df ['time'] = pd.to_datetime(df ['time'],format ='%m /%d /%Y%H:%M')'。 – heyu91