2013-01-02 14 views
0

假设我以时间序列的形式对局部温度,风速,气压,湿度等进行了测量,这就是我从世界上所知道的。时不时会有龙卷风袭击我的探测器。哪种(机器学习)方法识别多变量时间序列中的不稳定运动三维结构?

因为龙卷风不只是随机的东西,有一种模式,训练的眼睛可以识别时间序列......温度,风速等的一些变化以某种方式相互关联,具有不可预测性周围波动。

我想以某种自动方式做到这一点,以识别时间序列中的时间间隔,该时间间隔对应于我的探测器“看到”龙卷风的时间段。

哪种机器学习方法更适合于识别它们,并给出相应的“可靠性系数”。请注意,由于龙卷风本身就是一个不稳定的物体,它进一步以不稳定的方式运动,所以探测器并不总是能看到相同的温度,风速等变化,因为龙卷风可以来回移动探测器,局部地改变其形状等。我想我想说的是,时间序列测量结果不符合龙卷风“休息框架”中可能绘制的这些数量的实际空间轮廓。然而,它总是看到“有点”相同的特征,并且有一些随机性,只有我的眼睛才会认识到这一点,这使我认为这是ML的适当任务。

其他问题:是否有一个蟒蛇ML库,将实施推荐的方法? (PyBrain,Scikit?...?)

回答

1

可能可以通过移动窗口提取一些时间序列特征来手动标记某些事件作为龙卷风出现的正面示例,并将其余样本视为负数然后用适当的分类器从传感器测量的随机天气情况中分辨出积极的龙卷风事件。

您的数据中有多少次这样的事件?如果认为至少需要100个龙卷风事件才能够训练足够可靠的模型,并对其预测准确度进行足够的估计。

可以公开发布这个数据集,例如,在http://figshare.com

+0

我同意这是要走的路。你可以很容易地将神经网络应用于这个问题。 – Narthring

+0

如果OP是机器学习的新手,如果会建议他开始使用惩罚线性分类器(如线性支持向量机或逻辑回归),支持向量机或随机森林等其他模型。这些模型比神经网络更容易正确使用(网格搜索的超参数较少)。 虽然logistic回归,支持向量机和神经网络都需要输入缩放(例如到[0-1]范围),但要小心。使用随机森林时,不需要输入缩放(两者都不会受到伤害)。 – ogrisel

1

有各种各样的机器学习算法。您提供的信息并不表明没有进一步调查的任何一组算法都优于此。延长的时间序列确实表明您可能需要一种算法来创建简化的特征向量。神经网络不会自动为您提供可靠性系数。如果您愿意公开发布数百个随机正面和负面示例的数据集,则可能会有许多不同的小组随着时间推移应用各种算法。存在各种“比赛”场地,这将加快这一进程。

相关问题