2014-01-28 87 views
2

随着scikit学习,我已经建立了一个支持向量机,用于基本的手写数字检测问题。使用scikit-learn,如何通过小数据集学习SVM?

我的总数据集包括235个观察值。我的观察每个都包含1025个特征。我知道使用支持向量机的优点之一就是在这种情况下,只有少量的观察值具有大量的特征。

创建我的SVM后,我看我的混淆矩阵(下)...

Confusion Matrix: 
[[ 6 0] 
[ 0 30]] 

...并认识到,伸出我的数据的15%用于测试(即36个观察)是不足够的。

我的问题是:我如何解决这个小数据问题,使用交叉验证?

回答

1

这正是交叉验证(及其泛化,如Err^0.632)的用途。只有在大量数据的情况下,保留设置才是合理的。

+0

你是否在意详细说明? –