naivebayes

    -2热度

    1回答

    对文本文档的特征空间进行建模非常容易。例如,我可以将文本中的每个单词(训练数据)作为特征。 如果一个特定的词(例如“狗”)在(分类的)训练例子(例如被分类为垃圾邮件)遇到多次,那么我可以用这个词来分类新的数据。 如何模拟我的功能,如果它们不仅仅是单词? 在我的具体情况下,我有像名字,年龄和家庭大小的功能。 我不认为这是在我的特征向量中为每个可能的年龄创建条目的正确方法。 如果我假设人类不晚于100

    1热度

    1回答

    我正在处理类非常不平衡的分类问题。为了解决这个问题,我使用了替换过度采样。 (如这里所建议的:http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ )。 然后我将数据集(过采样的一个)分成训练和测试集,并训练朴素贝叶斯算法。当我想测试时,可以使

    0热度

    1回答

    我现在通过使用nltk来学习naivebayes分类器。 在文档(http://www.nltk.org/book/ch06.html)1.3文档分类中,有一个特征集示例。 featuresets = [(document_features(d), c) for (d,c) in documents] train_set, test_set = featuresets[100:], featur

    -1热度

    1回答

    我已经使用e1071软件包为朴素贝叶斯分类器创建了一个模型。我需要以下面的格式打印条件概率。 (A1 = x1 | c1)= 0.33 P(A2 = y1 | c1)= 0.67 P(A2 = y2 | c1)= 0.25 P(A2 = y2 | c1)= 0.32 P = 0.75 P(A3 = z1 | c1)= 0.26 P(A3 = z2 | c1)= 0.49 P(A3 = z3 | c

    0热度

    1回答

    我遇到了一个问题,我只想总结一下我正在尝试完成的内容,以便您获得清晰的图像来指导我。 我想创建一个语料库类似的东西movie_reviews其中movie_review只有2个类别,但如果在我来说,我将有多个类别和子类别。 例如: 说我有一个语料库my_corpus中,我想 创建的类别,如 'A', 'B', 'C', 'd' 和 'E'。每个 类别都将包含子类别,例如在'A'中,我想要 子类别,

    0热度

    1回答

    如何解决此错误? mvnpdf.m % y = mvnpdf(x,mu,Sigma) % Compute multivariate normal pdf for x given mean mu and covariance matrix % sigma. The dimension of x is d x p, mu is 1 x p and sigma is p x p. functio

    0热度

    1回答

    我现在正在制作nltk_classifier分类句子的分类。 所以我已经用11000个句子的特征集训练了分类器。 train_set, test_set = featuresets[1000:], featuresets[:1000] classifier = naivebayes.NaiveBayesClassifier.train(train_set) 但我想为升级分类器添加更多(句子,

    1热度

    1回答

    我必须实现朴素贝叶斯分类器将文档分类到一个类。因此,在获得属于类的术语的条件概率以及拉普拉斯平滑时,我们有: prob(t | c)= Num(Word出现在类c的文档中)+ 1/Num(类c)中的文档+ | V | 它是一个bernoulli模型,它可能有1或0,词汇量非常大,可能有20000个单词等等。所以,拉普拉斯平滑不会由于词汇量庞大而给出非常小的值,或者我做错了什么。 根据此链接的伪代码

    0热度

    1回答

    我在使用klaR包运行朴素贝叶斯时遇到此错误。 我想分享数据以便复制,但是我这样做有一些限制,因为我不确定发生了什么,所以无法创建将会重新创建自己的数据集。我希望有人读到这个可能以前遇到过并且克服了这个错误。 以下是错误: Error in if (any(temp)) stop("Zero variances for at least one class in variables: ", :

    -1热度

    1回答

    比方说,我有一个数据集有9个连续的数据列和4个分类数据列。在Matlab中,我的列分成两组并在其上做训练/测试(朴素贝叶斯)分开,并确定该连续列具有0.45错误率和分类列具有一个错误0.33。我的问题是 - 我如何确定组合错误? EDIT - 简单的伪代码概述加入: for x = 1:num_iterations Mdl_NB1 = fitcnb(TrainingSet_Con,Tra