2012-02-23 95 views
0

我想找到以下概率:机器学习 - 分类算法

P(y=1/n=k; thetha) 

读为:

概率,预测是给定的字数= K 1级,由thetha

参数化

传统分类没有条件概率(右)

P(y = 1; thetha) 

我该如何解决这个问题?

编辑:

例如,可以说我想预测的邮件是否是垃圾邮件或不基于附件的数量。 让y=1表示垃圾邮件,y=0为非垃圾邮件。

所以,

P(y = 1/num_attachements=0; some attributes) 
and so on!! 

是它使任何意义?

+0

非常不清楚的问题。指定此任务的应用程序,对单词“k”的数量以及其他参数“theta”有什么影响。也没有“传统分类”这样的东西。很可能你对基于概率论的分类器很感兴趣(比如朴素贝叶斯),这很容易与其他概率论方法相结合。 – ffriend 2012-02-23 23:41:29

+0

@朋友:请看看编辑谢谢让我知道它仍然不清楚 – Fraz 2012-02-23 23:45:41

回答

1
附件

通常数量是另一种属性,让你的概率是一样的

P(y = 1 | all attributes) 

但是,如果你有固定的一些特殊处理(比如,其它属性都是数字和附件布尔)你可以分别计算它们,然后组合为:

P(C|A, B) = P(C|A) * P(C|B)/P(C) 

其中C代表事件y = 1A - 对附件和B其他属性。

有关若干Nave Bayes分类器的说明,请参阅this paper

+1

你的公式对我来说没有意义。您有'P(y = 1 | A,B)= 1/Z * P(y = 1,A,B)= 1/Z * P(y = 1)* P(A,B | y = 1) ',其中'Z = P(A,B)'。然后,朴素贝叶斯模型假定'A'和'B'是独立的,知道'y = 1'。所以你得到'P(y = 1 | A,B)= 1/Z * P(y = 1)* P(A | y = 1)* P(B | y = 1)''。 – Edouard 2012-02-24 11:52:10

+1

@爱德华:实际上你是对的 - 我做了标准但不合理的假设,即P(y = 1)等于'P(y = 0)'(即所有等级的概率相等)。我更新了我的答案以考虑这个假设,并且在分别计算它们的情况下仍然使用概率P(C | A)和P(C | B)。你的最后一个公式是等价的,是另一种计算同一事物的方法 - 你可以通过对你的P(A | C)和P(B | C)应用贝叶斯准则来得到我的公式。 – ffriend 2012-02-24 19:19:30

1

使用Naive Baisean分类器。你可以很快编写一个代码,或者使用/查看nltk库。