2017-05-26 55 views
1

我一直在学习Graphlab,但也想看看熊猫,因为它是开源的,将来我可能会发现自己在没有GL许可证的公司,我想知道熊猫如何以我能够以GL的方式创建一个基本模型。如何从Graphlab移动到熊猫

data = pd.read_csv("~/Downloads/diamonds.csv") 
sframe = gl.SFrame(data) 
train_data, test_data = sframe.random_split(.8, seed=1) 
train, test = train_test_split(data, train_size=0.75, random_state=88) 
reg_model = gl.linear_regression.create(train_data, target="price", features=["carat","cut","color"], validation_set=None) 

上面最后一行的熊猫等值是什么?

+1

没有一个'pandas'等同。你想要使用像sklearn这样的不同的库。我会添加标签。 – piRSquared

+0

谢谢!我会看看scikit –

回答

1

pandas本身没有任何内置的预测建模(我知道)。 Here is a good link on how to leverage pandas在统计模型。 This one too.

pandas可能是Python中用于数据操作的最好模块之一(如果不是最好的话)。这会让存储数据和建模比列表和阅读的CSV更容易操纵数据等

读入文件是(注意这是多么直观)一样简单:

import pandas as pd 
# Excel 
df1 = read_excel(PATH_HERE) 
# Csv 
df1 = read_csv(PATH_HERE) 
# JSON 
df1 = read_json(PATH_HERE) 

,并吐出它:

# Excel 
d1.to_excel(PATH_HERE) 
# Need I go on again?? 

它也使过滤和切片你的数据非常简单。 Here is the official doc

出于建模目的,请参阅 sklearnNLTK进行文本分析。还有其他的,但那些是我用过的。

1

对于建模,你必须使用sklearn库。最后一行相当于是:

model = sklearn.linear_model.LogisticRegression() 
model.fit(train_data["carat","cut","color"], train_data["price"]) 

docs