2017-04-12 57 views
-1

我创建我的第一个预测模型及其结果是绝对可怕的。我需要一些帮助确定我如何解决这个问题。初学者指南,以排除性能不佳的模型

我做线性回归&逻辑回归分类,预测学生是否会通过一门课程,1是的,0是没有。

该数据集很小,因为我们只有一个类的完整数据,60个行的16个特征,35个传递和25个失败。 我想知道我的数据集是否太小。

我不想分享数据集,但会清理它,所以它是完全匿名的。

ROC非常非常不规则,主要是(对数回归),并预测比其他任何事情都更多的误报。

我喜欢一些初学者的一般故障排除建议,我可以在我们聘请专业人士之前尝试。

感谢您提供任何帮助。

enter image description here

回答

0

标识提出了一些建议:

  • 在Azure的ML那里有一个所谓的“过滤器基于特征选择”模块,你可以用它来赢得的功能,并检查是否真有预测能力在他们甚至选择只有最高分的那些。
  • 如果您还没有,在训练/交叉验证集中进行分解并评估您的模型,并将其用作诊断以识别欠适合(高偏倚)或过度拟合(高方差),并根据诊断执行如下操作:
  • 对于过拟合:获取更多数据,使用较少的特征,使用较不复杂的模型,添加或增加正则化
  • 对于欠拟合:添加更多特征,使用更复杂的模型,减少正则化。

而且不要忘了,开始训练之前,探索和评估数据,使用散点图,看是否确实其可分离,执行功能的工程和预处理该问问自己:给出这个功能,将人类专家能够执行预测?,如果你的答案不是,转换或下降功能,使答案是积极的

+0

谢谢路易斯。 Il花了几天时间研究功能,看看我能否用数据做出任何事情。数据之间没有足够的关系来做出准确的预测而不是折磨数据来做一些它无法做到的事情,这是很常见的,所以最好称它为特定的一组特性和数据? –

+0

是的,数据集可能不是高度相关的,也可能是其数据集太小,无法探索,特征工程和预处理其重要的,基于过滤器的天蓝色特征选择,它可以帮助你预训练任务,也许数据集本身并不强大,但经过一些清理后,添加一些计算的特征,删除其他人,这将是一个不同的故事 –