naivebayes

    1热度

    1回答

    我正在使用omnicat-bayes来分析文档(文本分类)。有了这个宝石,我可以创建类别,并用文档“提供”这些类别。目前这些类别有足够的文件,以便能够“足够好地”识别应放置在哪个类别中的新文档。 现在在我的文档控制器下创建操作是几个步骤。 创建一个新的贝叶斯实例 创建将用于 以预文件训练类别 的类别其实培训的类别 (所有的那些步骤在run_all函数下) 的创建操作: def create @d

    -1热度

    1回答

    我想问一下,我有10个有声参数的列,以及在此刻记录两个乐器的两列之后。 我有10列声音参数的数据后,我需要预测使用哪一台仪器。 我知道数据预处理等,但我想仔细检查我是否选择了正确的分类。对于我提供的例子,适用于NaïveBayes或线性回归还是SVN?我只是混淆了哪一个更适合这个特殊的例子。

    0热度

    2回答

    我有一大批标注为pos和neg的文字,用于对文本进行分类。我使用TextBlob(根据this tutorial)对文本进行分类。虽然它运行得很好,但对于大型训练集(例如8k字)可能非常缓慢。 我想尝试使用scikit-learn这样做,但我不确定从哪里开始。上述教程在scikit-learn中看起来如何?我也希望训练集包含某些单词的权重。有些应该保证特定文本被归类为“正面”,而另一些则保证归类为

    0热度

    1回答

    我想了解我是否可以以及是否有效使用SGD培训您的MNB模型。我的应用程序是文本分类。在sklearn我发现没有MNB可用,并且默认情况下它是SVM,但是NB是线性模型,不是吗? 所以,如果我的可能性参数(拉普拉斯平滑)可估计为 我能更新我的SGD参数和最小化成本函数? 请让我知道如果SGD在这里无关紧要。提前致谢。 更新: 所以我得到了答案,并希望我明白了,MNB的参数由给定输入文本中的词occu

    0热度

    2回答

    首先,我是新的python和nlp /机器学习。 现在我有以下代码: vectorizer = CountVectorizer( input="content", decode_error="ignore", strip_accents=None, stop_words = stopwords.words('english'), tokenizer=

    0热度

    2回答

    我目前使用朴素贝叶斯来分类一堆文本。我有多个类别。现在我只输出后验概率和类别,但我想要做的是根据后验概率对类别进行排序,并使用第二,第三类别作为“备份”类别。 下面是一个例子: df = pandas.DataFrame({ 'text' : pandas.Categorical(["I have wings","Metal wings","Feathers","Airport"]), 'true

    0热度

    1回答

    嗨我想分类数据集使用naivebayesclassifier.For为此我想使用外部数据集,我已经从google.this数据集下载包含两个文件夹的正面评论和负面评论。每个文件夹包含1000个.txt文件。如何在Python代码中将该文件导入为一个训练数据集。我是机器学习的新手,所以我对此没有多少想法。请帮助我。

    0热度

    1回答

    我是分析领域的新成员。也许这个问题对你来说很愚蠢。我正在使用R进行审查分类。我必须将评论分为50个不同的类别。我手动为模型的培训目的标记数据。我有点困惑如何标记审查? 我在这里做的是, 首先我将单个评论转换成句子,然后给这些句子一个特定的类别。我在这里做什么? 或者我必须给类别标记的审查而不打破句子?如果审查属于多于一个类别,那么该怎么办?

    3热度

    2回答

    我有一个数据集,时间戳作为格式之一,格式为09/07/2016 23:58。 我试图在这个数据上应用朴素贝叶斯,而且我正面临着下面的错误。请让我知道如何在我的模型 ValueError异常使用此数据:无效的文字浮法():2016年12月6日23:59

    1热度

    1回答

    我有两个numpy数组获取x和y从x有6个维度并且y(目标变量)具有一个维度的sframe开始。 x =np.array([[ 0 , 0 , 0, 24 ,0, 34], [ 0 , 0 , 0, 22 ,0, 34], ...]) y = np.array([[0], [0], [0], [1], [1], ...]) 我正在使用scikit-learn应用朴素贝叶斯分类器。当我尝试以适