2017-05-26 76 views
-1

我打算做一个yes/no分类器。问题是数据不是来自我的,所以我必须与我所得到的一起工作。我有大约150个样本,每个样本包含3个特征,这些特征是连续的数字变量。我知道数据集非常小。我想提出两个问题:少数样本和特征的机器学习算法

A)什么是最好的机器学习算法呢? SVM?一个神经网络?我读过的所有内容似乎都需要一个大数据集。 B)我可以通过添加一些不包含所有特征的样本来增大数据集的大小,只有一个或两个。我已经读过,你可以在这种情况下使用稀疏矢量,这是可能的每个机器学习算法? (我在SVM中看到过它们)

非常感谢您的帮助!

+0

您可以包括可视化数据分布的图表,例如,按类成员身份着色的二维散点绘图仪。任何试图回答没有只是猜测 – CAFEBABE

+0

我将不会收到数据,直到下周的一些点,我目前正在准备算​​法对不起,只要我有他们,我会发布他们 – Kailegh

回答

1

我的建议是使用一个简单明了的算法,像决策树回归,虽然,你指的应该工作同样出色的人。

鉴于您的样本数量要多于变量,数据集的大小不应该是个问题。但有更多的数据总是有帮助

+0

好吧,非常感谢,我会尝试他们两个,这几个样本我还应该保留25%的测试? – Kailegh

+0

顺便说一句,我知道阅读关于SVM,并且有很多类型,svm,svr,nusvm,nusvr .....是否有一篇文章或者其中每一个应该被使用的地方? – Kailegh

+0

当然,你应该使用一个方便的分区进行测试。另一种选择是交叉验证,例如, G。 10倍交叉验证。 – shirowww

-1

朴素贝叶斯是一个很好的选择,当培训的例子很少的情况下。与逻辑回归相比,Ng和Jordan表明朴素贝叶斯以较少的训练样例更快地收敛到最佳性能。 (参见book chapter的第4部分)。非正式地讲,朴素贝叶斯模型的联合概率分布在这种情况下表现更好。

在这种情况下不要使用决策树。决策树有过度适应的倾向,当你的训练数据很少时,这个问题就会加剧。

+0

好的,谢谢,我会把它放在我的算法列表中尝试 – Kailegh