scikit-learn

    2热度

    1回答

    我想使用Scikit-learn的半监督朴素贝叶斯(Bernoulli)的实现。根据this link in github,一年前还有一些工作和讨论(SemisupervisedNB级)。另一方面,似乎有another different implementation (function fit_semi?) which seems it was polished by another user

    3热度

    2回答

    我有一个不能在进程之间共享的类型的大对象。它有方法来实例化它并处理它的数据。 我现在这样做的方式是我首先在主父进程中实例化对象,然后在发生某些事件时将它传递给子进程。问题在于,无论子进程何时运行,它们都会复制内存中的对象,每次都需要一段时间。我想将它存储在只有它们可用的内存中,以便每次调用该对象的函数时不必复制它。 我将如何存储一个对象,只为该进程自己使用? 编辑:代码 class MultiQ:

    2热度

    2回答

    我使用scikit学习的文档分类,我想知道是否有预测不止一个CLASSE(与coresponding概率)的方式 这里是路我正在使用的代码: vectorizer = CountVectorizer(max_df=4000, min_df=4, strip_accents="unicode", analyzer="word", max_features=4000,stop_words=stopwo

    1热度

    1回答

    我有一个应用程序,我正在加载非常大的python对象 - 他们序列化scikit学习分类器及其相关词汇表。 分类器足够大(大约1-100 MBs),将它们加载到内存中是一项不重要的任务。实际读取速度很快,但拆分需要很长时间,对于4MB分类器,需要大约10秒。 是否有比cPickle.dumps/cPickle.loads更快的方式来序列化/反序列化对象? 附加信息: 的分类器是10个元件中的一个-

    1热度

    1回答

    我正在对sklearn.svm.SVC进行一些文本分类任务的实验。我知道在使用SVM建模之前执行特征选择是一个有点可疑的尝试,因为当使用全套特征时性能通常达到峰值。从学术的角度来看,这仍然很有趣,看看不同的特征选择方法如何对特征进行不同的排列 经过一番挖掘,我发现在sklearn,即Chi-2中提供了非常有限的特征选择度量选项。我只是想知道其他常用的度量标准,如IG和BNS是否已经在sklearn

    2热度

    3回答

    我一直在研究Python编码的优先级电子邮件收件箱,最终目标是使用机器学习算法来标记(或分类)选定的电子邮件为重要还是不重要。我将从一些背景资料开始,然后转入我的问题。 到目前为止,我已经开发了代码来从电子邮件中提取数据并对其进行处理以发现最重要的数据。 发件人地址频率 线程活动 身体/主题常用词接收日期(回复之间的时间) 代码:这是使用下面的电子邮件功能实现我现在根据其重要性对每封电子邮件应用排

    0热度

    1回答

    在训练了一个随机森林后,我想知道森林中每棵树的叶子数量是多少。例如,如果我训练了一棵有10棵树的森林,我想得到一个有10个入口的向量,其中第i个入口是第i棵树的树叶数。 谢谢!

    1热度

    1回答

    在scikit-learn中运行linear_model.lars_path(model ='lasso')时,我对套索路径的行为感到困惑。 我认为一旦权重(系数)变为活动(从0开始),它必须在LARS算法的所有即将到来的步骤中保持活动状态。 在我的数据上运行该算法时,我注意到有时系数会变为活动状态,然后它会变为零(从活动集中删除)。这是LARS算法的正确行为,还是scikit-learn实现中可

    2热度

    1回答

    我想从文本中获取最相关的单词以准备标签云。 我用CountVectoriser从scikit学习包: cv = CountVectorizer(min_df=1, charset_error="ignore", stop_words="english", max_features=200) 这是很好的,因为它给了我的话和频率的频道: counts = cv.fit_transform

    2热度

    1回答

    我试图在scikit-learn中复制其中一个示例,plot_iris_dataset.py。我相信我有最新的python-matplotlib(截至2013年2月8日),但是我在尝试在Axes3D对象中调用set_zticks(())方法时出现错误。我不会复制所有的代码,但它是像这样: ... ax = Axes3D(fig, elev=-150, azim=110) ... ax.set