计算，如果价值在大熊猫数据帧列表上的一列

产品ID列表购买

产品ID通过类似的客户购买“ P_LIST”

df = pd.DataFrame({'p': [12, 4, 5, 6, 7, 7, 6,5],'p_list':[[12,1,5], [3,1],[8,9,11], [6,7,9], [7,1,2],[12,9,8], [6,1,15],[6,8,9,11]]})

我要检查，如果 “p P_LIST” 上存在的 “” 还是不行，所以我申请这个代码

df["exist"]= df.apply(lambda r: 1 if r["p"] in r["p_list"] else 0, axis=1)

问题是我在这个数据帧中有大约5000万行，所以执行需要很长时间。

是否有更有效的方法来计算此列？

谢谢。

来源

2017-07-30 Nobel

您可以使用list comprehension，上投True, False值int：

df["exist"] = [r[0] in r[1] for r in zip(df["p"], df["p_list"])] 
df["exist"] = df["exist"].astype(int) 
print (df) 
    p   p_list exist 
0 12  [12, 1, 5]  1 
1 4   [3, 1]  0 
2 5  [8, 9, 11]  0 
3 6  [6, 7, 9]  1 
4 7  [7, 1, 2]  1 
5 7  [12, 9, 8]  0 
6 6  [6, 1, 15]  1 
7 5 [6, 8, 9, 11]  0

df["exist"] = [int(r[0] in r[1]) for r in zip(df["p"], df["p_list"])] 
print (df) 
    p   p_list exist 
0 12  [12, 1, 5]  1 
1 4   [3, 1]  0 
2 5  [8, 9, 11]  0 
3 6  [6, 7, 9]  1 
4 7  [7, 1, 2]  1 
5 7  [12, 9, 8]  0 
6 6  [6, 1, 15]  1 
7 5 [6, 8, 9, 11]  0

时序：

#[8000 rows x 2 columns] 
df = pd.concat([df]*1000).reset_index(drop=True) 
print (df) 

In [89]: %%timeit 
    ...: df["exist2"] = [r[0] in r[1] for r in zip(df["p"], df["p_list"])] 
    ...: df["exist2"] = df["exist2"].astype(int) 
    ...: 
100 loops, best of 3: 6.07 ms per loop 

In [90]: %%timeit 
    ...: df["exist"] = [1 if r[0] in r[1] else 0 for r in zip(df["p"], df["p_list"])] 
    ...: 
100 loops, best of 3: 7.16 ms per loop 

In [91]: %%timeit 
    ...: df["exist"] = [int(r[0] in r[1]) for r in zip(df["p"], df["p_list"])] 
    ...: 
100 loops, best of 3: 9.23 ms per loop 

In [92]: %%timeit 
    ...: df['exist1'] = df.apply(lambda x: x.p in x.p_list, axis=1).astype(int) 
    ...: 
1 loop, best of 3: 370 ms per loop 

In [93]: %%timeit 
    ...: df["exist"]= df.apply(lambda r: 1 if r["p"] in r["p_list"] else 0, axis=1) 
1 loop, best of 3: 310 ms per loop

来源

2017-07-30 07:05:38 jezrael

难道'isin'用于此？或者'eval（'p_list'中的'）'？ – SethMMorton

@SethMMorton - 我认为不行，因为需要按行比较，'eval'对我来说会返回错误（不知道如何使用） – jezrael

对不起，我的意思是'df.eval（'p_list''p'）。这是什么失败？这应该是行评估。 – SethMMorton

计算，如果价值在大熊猫数据帧列表上的一列

回答

相关问题