2015-10-16 43 views
1

我有时间序列数据的分类问题。用时间序列实现在线学习

每个示例具有被以不规则的间隔测量,并且在结束时的对象被分类为2个可能的类(二元分类)的1 10个变量。

我只有最后一类的例子,从训练中学习。但是,当给出一个新的例子,我想在每个时间戳(以在线方式)进行预测。所以,如果新的例子有25次测量,我想对它的类别做25次预测;每个时间戳一个。

我实现这个目前是使用最小的方式,意味着其10个变量,直到该点的测量值的最大值作为特征进行分类。这是最佳吗?什么会是更好的方法。

回答

1

如果你有在每个时间戳进行预测,那么这不会成为AA时间序列问题(除非你打算使用以前的观测序列,使你的下一个预测,在这种情况下,你需要训练基于序列的模型)。假设你只能根据你观察到的最终数据训练一个模型,可以有很多方法,但是我建议你在每棵树中使用具有大量树木和3或4个变量的随机森林。这种方式即使有些变量不能给你想要的输入,其他树仍然可以做出相当准确的预测。除此之外,还有许多合奏方法。

目前工作可能是一个非常松散的逼近和现实,但并没有太大的统计意义的方式。

+0

因此,时间序列严格*根据以前的值预测下一个值*? –

+0

假设我使用每个数据点的最后一类来训练RF,当我希望预测一个新的例子的类时,我输入了RF的哪些特征用于分类,其10个变量的测量的最小值,平均值和最大值,直到点? –

+0

集合方法的想法是你不使用所有变量来创建单个模型,而是使多个模型起诉变量的几个小子集......所以当你有一些数据时,你的一些变量随时间波动由于噪音,多种模式的组合可以帮助您更准确地预测数值 – Gaurav