我想加载sklearn.dataset,并根据密钥(target_names,目标& DESCR)缺少一列。我尝试了各种方法来包含最后一列,但有错误。加载SK到癌症数据集熊猫DataFrame
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print cancer.keys()
键是[ 'target_names', '数据', '目标', 'DESCR', 'feature_names']
data = pd.DataFrame(cancer.data, columns=[cancer.feature_names])
print data.describe()
与上面的代码,它只返回30列,当我需要31列。将scikit-learn数据集加载到pandas DataFrame中的最佳方式是什么?
你能解释为什么应该有31列?如果您使用'cancer.data.shape'或检查[数据集描述](http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html),似乎只有30数据集中的列。你错过了哪一列? –
我缺少dataset.keys()中的target/target_names列,因为它尚未加载到数据框中。 – pythonhunter