如何删除此DataFrame中不包含A的所有行？

我有这个数据帧：如何删除此DataFrame中不包含A的所有行？

  C_M  C_N  C_Y 
0   100  A  A 
1   200  C  A,D     
2   300  B  A,C,E 
3   400  A  B,C,A 
4   500  A  A,D,E

怎么弄我，我只保留了行，其中列C_N和列C_Y有“A” S？

这将是理想的结果：

  C_M  C_N  C_Y 
0   100  A  A 
1   400  A  B,C,A 
2   500  A  A,D,E

来源

2017-08-24 xingyuan jiang

这里有一种方法

In [1312]: df[(df.C_N == 'A') & (df.C_Y.str.contains('A'))] 
Out[1312]: 
    C_M C_N C_Y 
0 100 A  A 
3 400 A B,C,A 
4 500 A A,D,E

另一

In [1317]: df[df[['C_N', 'C_Y']].apply(lambda x: x.str.contains('A')).all(1)] 
Out[1317]: 
    C_M C_N C_Y 
0 100 A  A 
3 400 A B,C,A 
4 500 A A,D,E

来源

2017-08-24 06:40:56 Zero

您可以使用布尔遮蔽，然后重置指数

# assuming your original DataFrame is named `df` 
>>> df = df[(df.C_N == 'A') & (df.C_Y.str.contains('A'))].reset_index(drop=True) 
>>> df 
    C_M C_N C_Y 
0 100 A  A 
1 400 A B,C,A 
2 500 A A,D,E

如果有可能像在C_YBA,C,D值，你不想匹配，那么你可以使用正则表达式作为论据str.contains：

df[(df.C_N == 'A') & (df.C_Y.str.contains(r'(?:^A$)|(?:^A,)|(?:,A,)|(?:,+A$)'].reset_index(drop=True)

正则表达式检查，如果它只包含一个A（没有别的）或开始于A,或包含,A,或以,A结尾

来源

2017-08-24 06:41:04 MSeifert

我对那些正则表达式并不熟悉，所以你可能需要仔细检查它是否真的做了我认为应该做的事情。 – MSeifert

考虑到列C_Y可以包含复合字母（例如“BA”），该解决方案分割该列和确保值A包含作为列表中的唯一元件：

>>> df.loc[(df['C_N'] == 'A') & (df['C_Y'].str.split(',').apply(lambda row: 'A' in row))] 
    C_M C_N C_Y 
0 100 A  A 
3 400 A B,C,A 
4 500 A A,D,E

每样本数据，它假定没有间隔在C_Y柱。

来源

2017-08-24 07:00:00 Alexander

绝对值得考虑的一个边缘案例。但''应用''系列'是非常慢的...... – MSeifert

是的，如果'C_Y'中的值已知为A-Z，则会更容易。 – Alexander

如何删除此DataFrame中不包含A的所有行？

回答

相关问题