2016-08-05 175 views
1

我一直在试验机器学习,需要开发一个模型,它将根据许多变量进行预测。我可以解释最简单的方法是通过下面的“打高尔夫”的例子:机器学习Python中的朴素贝叶斯分类器

train.csv

Outlook,Temperature,Humidity,Windy,Play 
overcast,hot,high,FALSE,yes 
overcast,cool,normal,TRUE,yes 
overcast,mild,high,TRUE,yes 
overcast,hot,normal,FALSE,yes 
rainy,mild,high,FALSE,yes 
rainy,cool,normal,FALSE,yes 
rainy,cool,normal,TRUE,no 
rainy,mild,normal,FALSE,yes 
rainy,mild,high,TRUE,no 
sunny,hot,high,FALSE,no 
sunny,hot,high,TRUE,no 
sunny,mild,high,FALSE,no 
sunny,cool,normal,FALSE,yes 
sunny,mild,normal,TRUE,yes 

程序将需要预测插入makeprediciton.csv文件

Outlook,Temperature,Humidity,Windy,Play 
rainy,hot,normal,TRUE, 

我已经能够使用excel应用此分类器。想知道python中是否有一个简单的库,它可以帮助我将频率分组并进行计算,而不必手动编写一切代码。

你可以看到到Excel我的方法在下面的链接: http://www.filedropper.com/playgolf

任何帮助将不胜感激。

+2

看一看' scikit-learn',并且请避免在stackoverflow上询问图书馆推荐的问题。在'howto ask'中明确指出,这些问题不适用于计算器。 – cel

回答

1

这取决于。如果您不想编码,请尝试Rapidminier。学习和实验非常简单。这是documentation非常好,清晰。你可以看到This example朴素贝叶斯分类器并得到结果。


此外,如果你想要一些编码和使用Python郎,尝试Scikit-learn女巫是在Python更先进的库。它利用scipy和numpy,并具有非常强大的数据挖掘算法实现。为了您的例子中,你必须首先使用One-Hot-Encoding改变你的分类功能,高维稀疏向量,然后使用分类像Naive Bayesian


而且阅读CSV文件,你可以使用Pandas