2016-09-23 36 views
-1

假设我有一组变量(矢量,它们全部具有相同的长度):X1,X2,X3,X4,X5,X6 ... Xn。和依赖于一些变量X的时间系列Y(具有相同长度N)。在数据集上找到最有意义的变量

我需要一个算法来确定哪些变量的X最有Ÿ相关。即我需要丢弃最不有意义的变量,并获得最有影响力的变量Y

例子:

比方说,我们要确定是什么在影响一个特定的IT网站的网络流量。我们有5个关键字:keyword1,keyword2,keyword3,keyword4和keyword5。

比方说,我们对谷歌(键1 = X1,键2 = X2,KEY3 = X3,KEY4 = X4,KEY5 = X5),总网络流量Ÿ关键字的搜索量。我想确定上述集合(X1,X2,X3,X4或X5)中的关键字对网站的总流量有什么意义。我可以放弃哪些变量以及哪些变量可以提供最多的流量。 (假设所有这些向量和时间序列都是归一化和标准化的时间序列,范围从0到100)

+0

如果您认为大多数变量与输出Y具有线性关系,您可以执行逐步回归http://www.mathworks.com/help/stats/stepwisefit.html以确定在你的模型中包含哪些变量 –

+1

也许你已经知道这一点,但是这种一般类型的问题在机器学习社区中被称为*特性选择*。 [Wikipedia article](https://en.wikipedia.org/wiki/Feature_selection)描述了许多您可以尝试的不同方法,其中一些方法可以在Matlab的统计和机器学习工具箱中直接使用。像@SomeGuy提到的,逐步线性回归就是其中之一。另一个流行的是[套索方法](http://www.mathworks.com/help/stats/lasso.html)。 – khonegger

回答