在数据集上找到最有意义的变量

-1

假设我有一组变量（矢量，它们全部具有相同的长度）：X1，X2，X3，X4，X5，X6 ... Xn。和依赖于一些变量X的时间系列Y（具有相同长度N）。在数据集上找到最有意义的变量

我需要一个算法来确定哪些变量的X最有Ÿ相关。即我需要丢弃最不有意义的变量，并获得最有影响力的变量Y。

例子：

比方说，我们要确定是什么在影响一个特定的IT网站的网络流量。我们有5个关键字：keyword1，keyword2，keyword3，keyword4和keyword5。

比方说，我们对谷歌（键1 = X1，键2 = X2，KEY3 = X3，KEY4 = X4，KEY5 = X5），总网络流量Ÿ关键字的搜索量。我想确定上述集合（X1，X2，X3，X4或X5）中的关键字对网站的总流量有什么意义。我可以放弃哪些变量以及哪些变量可以提供最多的流量。（假设所有这些向量和时间序列都是归一化和标准化的时间序列，范围从0到100）

来源

2016-09-23 Luis Cruz

如果您认为大多数变量与输出Y具有线性关系，您可以执行逐步回归http://www.mathworks.com/help/stats/stepwisefit.html以确定在你的模型中包含哪些变量 –

也许你已经知道这一点，但是这种一般类型的问题在机器学习社区中被称为*特性选择*。 [Wikipedia article]（https://en.wikipedia.org/wiki/Feature_selection）描述了许多您可以尝试的不同方法，其中一些方法可以在Matlab的统计和机器学习工具箱中直接使用。像@SomeGuy提到的，逐步线性回归就是其中之一。另一个流行的是[套索方法]（http://www.mathworks.com/help/stats/lasso.html）。 – khonegger

一种方法是使用特征选择svm。

我已经使用Feature Generation Machine成功完成了这项工作。请检查以下链接：http://www.tanmingkui.com/fgm.html

来源

2016-09-23 15:03:06 TyanTowers

在数据集上找到最有意义的变量

回答

相关问题