我想我的数据集分成使用分层抽样(scikitlearn)列车组和测试组。我的方法如下:分层抽样的python scikitlearn
1)我'读CSV文件并加载它使用大熊猫 readCSV.so最终我'存储在数据帧的名字所装载的csv“数据集”
dataset = pd.readCSV('CSV_NAME)
2)现在我'施加分层抽样为:
train,test = train_test_split(dataset,test_size=0.20,stratify=True)
但它扔以下错误:
TypeError: Singleton array array(True, dtype=bool) cannot be considered a valid collection.
所以,请建议我做它的正确途径。
STERGIOS嗨,我需要在数据集中的所有列,这是什么dataset.target.Still我已经修改了它作为:火车,测试= train_test_split(数据集[target_cols ],dataset.target,test_size = 0.20,stratify = True) 但它抛出错误'DataFrame'对象没有属性'target' –
'Target'是你的目标变量;你试图预测的那个。您应该将其更改为您的实际列名称。 'target_cols'应该是列名的其余部分。 – Stergios