熊猫数据框索引匹配

我想知道是否有更有效的方法来做一个“索引&匹配”类型的功能，在Excel中流行。例如 - 给两只大熊猫DataFrames，更新信息df_1在df_2发现：熊猫数据框索引匹配

import pandas as pd 

df_1 = pd.DataFrame({'num_a':[1, 2, 3, 4, 5], 
        'num_b':[2, 4, 1, 2, 3]})  
df_2 = pd.DataFrame({'num':[1, 2, 3, 4, 5], 
        'name':['a', 'b', 'c', 'd', 'e']})

我同那些在两个df_1和df_2〜8万行数据集中工作，我的目标是创建两个新的列在df_1中，“name_a”和“name_b”。

下面是我能想出的最有效的方法。有有是更好的方法！

name_a = [] 
name_b = [] 
for i in range(len(df_1)): 

    name_a.append(df_2.name.iloc[df_2[ 
        df_2.num == df_1.num_a.iloc[i]].index[0]]) 
    name_b.append(df_2.name.iloc[df_2[ 
        df_2.num == df_1.num_b.iloc[i]].index[0]]) 

df_1['name_a'] = name_a 
df_1['name_b'] = name_b

，导致：

>>> df_1.head() 
    num_a num_b name_a name_b 
0  1  2  a  b 
1  2  4  b  d 
2  3  1  c  a 
3  4  2  d  b 
4  5  3  e  c

来源

2017-06-02 A. Martin

高层

创建字典在replace
replace，rename列使用，并join

m = dict(zip(
    df_2.num.values.tolist(), 
    df_2.name.values.tolist() 
)) 

df_1.join(
    df_1.replace(m).rename(
     columns=lambda x: x.replace('num', 'name') 
    ) 
) 

    num_a num_b name_a name_b 
0  1  2  a  b 
1  2  4  b  d 
2  3  1  c  a 
3  4  2  d  b 
4  5  3  5  c

击穿

replace与字典应该是相当快的。有很多方法可以建立一个字典表df_2。事实上，我们可以使用pd.Series。我选择用dict和zip构建，因为我发现它更快。

建筑m

选项1

m = df_2.set_index('num').name

选项2

m = df_2.set_index('num').name.to_dict()

选项3

m = dict(zip(df_2.num, df_2.name))

选项4（我的选择）

m = dict(zip(df_2.num.values.tolist(), df_2.name.values.tolist()))

m生成时间

1000 loops, best of 3: 325 µs per loop 
1000 loops, best of 3: 376 µs per loop 
10000 loops, best of 3: 32.9 µs per loop 
100000 loops, best of 3: 10.4 µs per loop 

%timeit df_2.set_index('num').name 
%timeit df_2.set_index('num').name.to_dict() 
%timeit dict(zip(df_2.num, df_2.name)) 
%timeit dict(zip(df_2.num.values.tolist(), df_2.name.values.tolist()))

更换num

再次，我们有选择，这里有一些和他们的时代。

%timeit df_1.replace(m) 
%timeit df_1.applymap(lambda x: m.get(x, x)) 
%timeit df_1.stack().map(lambda x: m.get(x, x)).unstack() 

1000 loops, best of 3: 792 µs per loop 
1000 loops, best of 3: 959 µs per loop 
1000 loops, best of 3: 925 µs per loop

我选择...

df_1.replace(m) 

    num_a num_b 
0  a  b 
1  b  d 
2  c  a 
3  d  b 
4  5  c

重命名列

df_1.replace(m).rename(columns=lambda x: x.replace('num', 'name')) 

    name_a name_b <-- note the column name change 
0  a  b 
1  b  d 
2  c  a 
3  d  b 
4  5  c

加入

df_1.join(df_1.replace(m).rename(columns=lambda x: x.replace('num', 'name'))) 

    num_a num_b name_a name_b 
0  1  2  a  b 
1  2  4  b  d 
2  3  1  c  a 
3  4  2  d  b 
4  5  3  5  c

来源

2017-06-02 00:06:19 piRSquared

只要试一下条件说明：

import pandas as pd 
import numpy as np 
df_1 = pd.DataFrame({'num_a':[1, 2, 3, 4, 5], 
        'num_b':[2, 4, 1, 2, 3]})  
df_2 = pd.DataFrame({'num':[1, 2, 3, 4, 5], 
        'name':['a', 'b', 'c', 'd', 'e']}) 
df_1["name_a"] = df_2["num_b"] 
df_1["name_b"] = np.array(df_1["name_a"][df_1["num_b"]-1]) 
print(df_1) 

    num_a num_b name_a name_b 
0  1  2  a  b 
1  2  4  b  d 
2  3  1  c  a 
3  4  2  d  b 
4  5  3  e  c

来源

2017-06-02 00:23:00

熊猫数据框索引匹配

回答

相关问题