2017-02-19 794 views
1

的Python 3.5,从sklearn预处理什么preprocessing.scale()做什么?它是如何工作的?

df = quandl.get('WIKI/GOOGL') 
X = np.array(df) 
X = preprocessing.scale(X) 
+0

你看过[文档](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html)吗? –

+0

是的,但我不明白它在做什么的X值? –

+1

我相信它会减去平均值和除以指定轴上数据集的标准偏差。 – pbreach

回答

2

的preprocessing.scale()算法将一个规模数据。这对大量稀疏数据集很有帮助。简而言之,您的数据分布广泛。例如,X的也许像这样的值:

X = [1,4,400,10000,100000]

与稀疏度的问题是它非常偏置或在统计术语偏斜。因此,缩放数据将所有数值放在一个比例上,从而消除稀疏性。关于如何在数学细节中发挥作用,遵循标准化和标准化的相同概念。你可以对这些进行研究,以了解它是如何工作的。但为了让生活更简单,sklearn算法为您做了一切!

相关问题