2017-08-07 154 views
0

我有一个csv文件,并且正在尝试创建一个数据集以便与scikit-learn一起使用。如何从本地csv文件创建一个python数据集?

加载这些包:

import matplotlib.pyplot as plt 
import pandas as pd 
import numpy as np 
from sklearn import datasets, linear_model 

我尝试这样做:

sales = pd.read_csv("sales.csv") 
dataset = np.loadtxt(sales, delimiter=",") 

它给了我这个错误:

AttributeError: 'DataFrame' object has no attribute 'endswith'

请帮帮忙!我无法找到如何从csv文件创建数据集。

谢谢!

编辑

为了澄清 - 我尽量遵循这一程序http://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html,但我想用我自己的数据。我想知道如何将csv转换为python数据集,如果甚至可能的话。

+0

请参阅此文档https://docs.scipy.org/doc/numpy-1.10.4/reference/generated/numpy.loadtxt.html,可能有助于设置您的'dtype'。 –

回答

0

基本上,销售已经是数据集。您正尝试传递一个数据框对象来代替文件名。因此,您可以使用直接销售的数据集,因为它将包含的功能和标签或

dataset = np.loadtxt('sales.csv', delimiter=",") 

两种方式均有效,如果您对数据的正确格式。

0

在您的情况下,销售是您可能正在寻找的DataFrame。你可以操纵它,例如尝试打印sales.columns。

+0

我真的不明白如何解决这个问题。我这样做,它只是打印索引和dtype。 – adurbin