使用scikit-learn，如何通过小数据集学习SVM？

随着scikit学习，我已经建立了一个支持向量机，用于基本的手写数字检测问题。使用scikit-learn，如何通过小数据集学习SVM？

我的总数据集包括235个观察值。我的观察每个都包含1025个特征。我知道使用支持向量机的优点之一就是在这种情况下，只有少量的观察值具有大量的特征。

创建我的SVM后，我看我的混淆矩阵（下）...

Confusion Matrix: 
[[ 6 0] 
[ 0 30]]

...并认识到，伸出我的数据的15％用于测试（即36个观察）是不足够的。

我的问题是：我如何解决这个小数据问题，使用交叉验证？

这正是交叉验证（及其泛化，如Err^0.632）的用途。只有在大量数据的情况下，保留设置才是合理的。

2014-01-29 06:24:09 lejlot

你是否在意详细说明？ –

回答