0
我使用代码来检查我的数据集'df'并查看'Has_Arrears'列中的严重不平衡。我会用Has_Arrears = 1 35倍的重复样本展开我的目标数据集。即每个观察Has_Arrears = 1的样本35次。我如何实现这一点?欢呼声复制数据集中的样本?
如果我想使用stratify抽样,我该如何编码?
我使用代码来检查我的数据集'df'并查看'Has_Arrears'列中的严重不平衡。我会用Has_Arrears = 1 35倍的重复样本展开我的目标数据集。即每个观察Has_Arrears = 1的样本35次。我如何实现这一点?欢呼声复制数据集中的样本?
如果我想使用stratify抽样,我该如何编码?
如果我理解正确的话,这可能是你在找什么:
new = df['Has_Arrears'] == 1
a = df[new]
df = df.append([a]*35, ignore_index=True)
很难告诉你,在这个问题想要什么。你需要你的代码返回什么样的对象?它是代表Has_Arrears == 1的过采样行的索引数组吗? – kiliantics