0

我想了解代码示例Deep Neural Network Regression with Boston Data使用TensorFlow加载波士顿房屋数据集

该数据集被描述为here。它有14个属性。

该示例使用以下代码加载数据。

# Load dataset 
boston = learn.datasets.load_dataset('boston') 
x, y = boston.data, boston.target 

当我想知道更多关于xy,我有以下。

>>> type(x) 
<type 'numpy.ndarray'> 
>>> type(y) 
<type 'numpy.ndarray'> 
>>> x.shape 
(506, 13) 
>>> y.shape 
(506,) 
>>> 

我的问题:

  1. 为什么数据集已经被分成两个对象一个13个属性和其他与1?
  2. 这个部门的基础是什么?

回答

1

boston.data中的13列是您的功能。 boston.target中的1列是您的目标。分割完成的原因是因为大多数时候,机器学习算法需要将特征和目标作为单独的数据结构。 load_datasets函数通过拆分MDEV列来简化您的工作,因为大多数时候,这是人们想要预测的功能。换句话说,load_data集合的设计者假设你想尝试找到基于其他13个特征的中位房价。

您不必这样做。您可以选择任何功能作为您的目标。假设你想预测RM,每个房间的平均房间数量。只需将MDEV列合并回boston.data并拆分RM即可。然后用RM作为你的目标。

顺便说一句,你提供的链接是坏的,所以我谷歌它想出了这个Boston Housing price tutorial。如果你想在张量流中做回归,它看起来相当完整