什么preprocessing.scale（）做什么？它是如何工作的？

df = quandl.get('WIKI/GOOGL') 
X = np.array(df) 
X = preprocessing.scale(X)

2017-02-19 0x Tps

你看过[文档]（http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html）吗？ –

是的，但我不明白它在做什么的X值？ –

我相信它会减去平均值和除以指定轴上数据集的标准偏差。 – pbreach

的preprocessing.scale（）算法将一个规模数据。这对大量稀疏数据集很有帮助。简而言之，您的数据分布广泛。例如，X的也许像这样的值：

X = [1，4，400，10000，100000]

与稀疏度的问题是它非常偏置或在统计术语偏斜。因此，缩放数据将所有数值放在一个比例上，从而消除稀疏性。关于如何在数学细节中发挥作用，遵循标准化和标准化的相同概念。你可以对这些进行研究，以了解它是如何工作的。但为了让生活更简单，sklearn算法为您做了一切！

2017-02-19 20:45:38

回答