2016-10-10 44 views
0

如何将数据集分为原始数据集的75%和25%的训练和测试集,分别使用分层采样来保留这些新集中的比例类大小。我试图用WEKA来做到这一点。WEKA中的分层采样

“RemovePercentage”过滤器有助于不以分层方式进行,而“StratifiedRemoveFolds”过滤器不会使用百分比进行此操作。

我将不胜感激任何帮助或建议。

回答

0

因此,作为解决方案,我使用stratifiedRemoveFolds将数据集分成两部分。在这种情况下,我的折叠次数是2,产生50%-50%的数据集。然后,我使用相同的方法将其中一个折叠分成两部分,产生原始数据集的25%-25%的子集。然后,我将25%的数据集中的一个合并到50%左右,产生75%-25%的分层分割 - 这是我的目标。