使用熊猫填充缺失值推荐的方法,我想从以下数据框中df1
与列中的值填写b
列的缺失值a
对大熊猫
import pandas as pd
import numpy as np
df1 = pd.DataFrame(data=dict(a=[1, 2, 3], b=[1, np.nan, 3]))
mask = pd.isnull(df1.b)
看来我可以使用三种不同的方式:
# first
df1.loc[mask, 'b'] = df1.loc[mask, 'a']
#second
df1.loc[mask, 'b'] = df1.a
# third
df1.fillna(value=dict(b=df1.a), inplace=True)
所有这些都导致相同的结果。有推荐的方法吗?
谢谢。
他们都有优点和缺点。什么对你最有用? – piRSquared
我认为这不是一个有用的问题。我对第二个(也是第三个)有点困惑,因为它在正确的DataFrame上获得适当的索引,而在第一种情况下它是明确的。 –
第三个应该是自我解释。您正在使用旨在解决此问题的API。一,熊猫自动对齐指数,这就是大熊猫真棒的原因之一。二,你正在为熊猫做的工作,通过消除它将要照顾的指数。 – piRSquared