大熊猫据帧：基于其他列

我有这样的例子pandas.DataFrame与+ 20K行创建标签的新列，在下面的表格：大熊猫据帧：基于其他列

import pandas as pd 
import numpy as np 

data = {"first_column": ["A", "B", "B", "B", "C", "A", "A", "A", "D", "B", "A", "A"], 
     "second_column": [0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0]} 

df = pd.DataFrame(data) 

>>> df 
    first_column second_column 
0    A    0 
1    B    1 
2    B    1 
3    B    1 
4    C    0 
5    A    0 
6    A    0 
7    A    1 
8    D    1 
9    B    1 
10   A    1 
11   A    0 
....

列first_column对每一行A，B，C，和D。在第二列中，有一个表示一组值的二进制标签。 1的所有连续分组都是独特的“组”，例如，第1-3行是一组，第7-10行是另一组。

我想通过“AB”（该组仅由A或B组成），“CD”（该组仅由C或D组成）或“ “混合”（如果有混合，例如全部B和一个C）。知道这些分组中的某些百分比是多少，即AB的百分比超出总标签的百分比也是有用的。所以，如果它只是A或B，身份应该是AB。如果它只是C或D，身份应为CD。它是A，B，C和/或D的混合物，那么它是mixed。百分比（AB行数）/（＃总行）

这里是如何产生的DataFrame看起来是：

>>> df 
    first_column second_column identity percent 
0    A    0   0   0 
1    B    1   AB  1.0 
2    B    1   AB  1.0 
3    B    1   AB  1.0 
4    C    0   0   0 
5    A    0   0   0 
6    A    0   0   0 
7    A    1  mixed  0.75 # 3/4, 3-AB, 4-total 
8    D    1  mixed  0.75 
9    B    1  mixed  0.75 
10   A    1  mixed  0.75 
11   A    0   0   0 
....

我最初的想法是首先尝试使用df.loc()与

if (df.first_column == "A" | df.first_column == "B"): 
    df.loc[df.second_column == 1, "identity"] = "AB" 
if (df.first_column == "C" | df.first_column == "D"): 
    df.loc[df.second_column == 1, "identity"] = "CD"

但这不考虑混合物，也不适用于孤立的分组。

来源

2017-04-24 ShanZhengYang

我不明白怎么算混合 - 您可以根据数学公式解释一下吗？ – Edward

@爱德华对不起。如果它只有A或B，那么'identity'应该是'AB'。如果只有C或D，那么'identity'应该是'CD'。它是A，B，C和/或D的混合物，然后混合。这个百分比是'（AB行数量）/（总行数量）' – ShanZhengYang

这是一种方法。

代码：

import pandas as pd 

from collections import Counter 
a_b = set('AB') 
c_d = set('CD') 

def get_id_percent(group): 
    present = Counter(group['first_column']) 
    present_set = set(present.keys()) 

    if group['second_column'].iloc[0] == 0: 
     ret_val = 0, 0 
    elif present_set.issubset(a_b) and len(present_set) == 1: 
     ret_val = 'AB', 0 
    elif present_set.issubset(c_d) and len(present_set) == 1: 
     ret_val = 'CD', 0 
    else: 
     ret_val = 'mixed', \ 
       float(present['A'] + present['B'])/len(group) 

    return pd.DataFrame(
     [ret_val] * len(group), columns=['identity', 'percent'])

测试代码：

data = {"first_column": ["A", "B", "B", "B", "C", "A", "A", 
         "A", "D", "B", "A", "A"], 
     "second_column": [0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0]} 

df = pd.DataFrame(data) 

groupby = df.groupby((df.second_column != df.second_column.shift()).cumsum()) 

results = groupby.apply(get_id_percent).reset_index() 
results = results.drop(['second_column', 'level_1'], axis=1) 
df = pd.concat([df, results], axis=1) 
print(df)

结果：

first_column second_column identity percent 
0    A    0  0  0.00 
1    B    1  AB  0.00 
2    B    1  AB  0.00 
3    B    1  AB  0.00 
4    C    0  0  0.00 
5    A    0  0  0.00 
6    A    0  0  0.00 
7    A    1 mixed  0.75 
8    D    1 mixed  0.75 
9    B    1 mixed  0.75 
10   A    1 mixed  0.75 
11   A    0  0  0.00

来源

2017-04-24 20:50:48

感谢！除了一些“百分比”值之外，它工作得很好。其中一些看起来是关闭的，例如， '1'当它应该是'0.5'，'0.4'时应该是'0.6'。有没有办法检查/调试呢？ – ShanZhengYang

要进行调试，您可以返回比当前两列更多的值，以查看计算中正在使用的值。 –

谢谢。我最终返回了每个计数的列，然后再除以比例，例如， float（present [“A”]），float（present [“B”]），float（present [“B”]），...'。看来有些“CD”组被标记为“混合”。也许这是由于“C”或“D”中的空格？ – ShanZhengYang

这里有一个Appro公司ACH：

import pandas as pd 

# generate example data 
data = {"first_column": ["A", "B", "B", "B", "C", "A", "A", "A", "D", "B", "A", "A"], 
    "second_column": [0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0]} 
df = pd.DataFrame(data) 

# these are intermediary groups for computation 
df['group_type'] = None 
df['ct'] = 0 

def find_border(x, ct): 
    ''' finds and labels lettered groups ''' 
    ix = x.name 
    # does second_column == 1? 
    if x.second_column: 
     # if it's the start of a group... 
     if (not ix) | (not df.group_type[ix-1]): 
      df.ix[ix,'group_type'] = x.first_column 
      df.ix[ix,'ct'] += 1 
      return 
     # if it's the end of a group 
     elif (not df.second_column[ix+1]): 
       df.ix[ix,'group_type'] = df.group_type[ix-1] + x.first_column 
       df.ix[ix,'ct'] = df.ct[ix-1] + 1 
       for i in range(df.ct[ix-1]+1): 
        df.ix[ix-i,'group_type'] = df.ix[ix,'group_type'] 
       df.ix[ix,'ct'] = 0 
       return 
     # if it's the middle of a group 
     else: 
      df.ix[ix,'ct'] = df.ct[ix-1] + 1 
      df.ix[ix,'group_type'] = df.group_type[ix-1] + x.first_column 
      return 
    return 

# compute group membership 
_=df.apply(find_border, axis='columns', args=(0,)) 

def determine_id(x): 
    if not x: 
     return '0' 
    if list(set(x)) in [['A'],['B'],['A','B']]: 
     return 'AB' 
    elif list(set(x)) in [['C'],['D'],['C','D']]: 
     return 'CD' 
    else: 
     return 'mixed' 

def determine_pct(x): 
    if not x: 
     return 0 
    return sum([1 for letter in x if letter in ['A','B']])/float(len(x)) 

# determine row identity 
df['identity'] = df.group_type.apply(determine_id) 

# determine % of A or B in group 
df['percent'] = df.group_type.apply(determine_pct)

输出：

first_column second_column identity percent 
0    A    0  0  0.00 
1    B    1  AB  1.00 
2    B    1  AB  1.00 
3    B    1  AB  1.00 
4    C    0  0  0.00 
5    A    0  0  0.00 
6    A    0  0  0.00 
7    A    1 mixed  0.75 
8    D    1 mixed  0.75 
9    B    1 mixed  0.75 
10   A    1 mixed  0.75  
11   A    0  0  0.00

来源

2017-04-24 22:16:18

谢谢。你有计算'百分比'列的方法吗？ – ShanZhengYang

当然，请参阅我的更新解决方案。 –

虽然请注意，它实际上不是百分比，而是比例，在“百分比”列中。 –

大熊猫据帧：基于其他列

回答

相关问题