少数样本和特征的机器学习算法

-1

我打算做一个yes/no分类器。问题是数据不是来自我的，所以我必须与我所得到的一起工作。我有大约150个样本，每个样本包含3个特征，这些特征是连续的数字变量。我知道数据集非常小。我想提出两个问题：少数样本和特征的机器学习算法

A）什么是最好的机器学习算法呢？ SVM？一个神经网络？我读过的所有内容似乎都需要一个大数据集。 B）我可以通过添加一些不包含所有特征的样本来增大数据集的大小，只有一个或两个。我已经读过，你可以在这种情况下使用稀疏矢量，这是可能的每个机器学习算法？（我在SVM中看到过它们）

非常感谢您的帮助！

2017-05-26 Kailegh

您可以包括可视化数据分布的图表，例如，按类成员身份着色的二维散点绘图仪。任何试图回答没有只是猜测 – CAFEBABE

我将不会收到数据，直到下周的一些点，我目前正在准备算法对不起，只要我有他们，我会发布他们 – Kailegh

我的建议是使用一个简单明了的算法，像决策树或回归，虽然，你指的应该工作同样出色的人。

鉴于您的样本数量要多于变量，数据集的大小不应该是个问题。但有更多的数据总是有帮助。

2017-05-26 17:58:17 shirowww

好吧，非常感谢，我会尝试他们两个，这几个样本我还应该保留25％的测试？ – Kailegh

顺便说一句，我知道阅读关于SVM，并且有很多类型，svm，svr，nusvm，nusvr .....是否有一篇文章或者其中每一个应该被使用的地方？ – Kailegh

当然，你应该使用一个方便的分区进行测试。另一种选择是交叉验证，例如， G。 10倍交叉验证。 – shirowww

-1

朴素贝叶斯是一个很好的选择，当培训的例子很少的情况下。与逻辑回归相比，Ng和Jordan表明朴素贝叶斯以较少的训练样例更快地收敛到最佳性能。（参见book chapter的第4部分）。非正式地讲，朴素贝叶斯模型的联合概率分布在这种情况下表现更好。

在这种情况下不要使用决策树。决策树有过度适应的倾向，当你的训练数据很少时，这个问题就会加剧。

好的，谢谢，我会把它放在我的算法列表中尝试 – Kailegh

回答