data-mining

    0热度

    1回答

    我正在使用Elki运行LOF算法,但每次我在Elki运行LOF算法时,Elki都会在同一数据集上给出不同的运行时间。 我很困惑,为什么会发生这种情况?

    1热度

    1回答

    我使用TF-IDF来影响可以帮助我构建字典的重量。但我的模型不够好,因为我有非结构化文本。 有关TF-IDF类似算法的任何建议?

    -3热度

    2回答

    我想用NBA数据找到特定赛季的MVP。我正在研究一些算法,如神经网络,AdaBoost,随机森林和决策树。我真的想使用AdaBoost,但AdaBoost的问题在于,如果我使用决策树桩作为我的弱学习者,似乎只能使用一个功能。我想使用所有的数据,比如上场时间,积分和站位/记录来查看是否可以对该赛季的MVP进行分类。我想知道是否有任何机器学习算法可以用于此项目,或者让我知道是否可以将这些算法用于我想要

    0热度

    1回答

    在随机森林中。每个子集随机采集以构建树。但是,我们怎样才能确定我们正在采取一个独特的子集。 如果我的N = 2,2个随机样本要生成树来生成。随着数据的随机选择,同样的数据可以进入其他子集。我们如何确保这样做。 有没有相同的机制?

    3热度

    1回答

    现在我建立一个功能来确定电子邮件地址是否邮件列表地址/组电子邮件地址或个人电子邮件地址。我目前的策略是使用人工手动注释,然后使用这些数据来确定传入的邮件地址。例如[email protected],是邮寄地址,所以我保存这个电子邮件地址recruitment和标记作为组的名称,所以在将来如果有名字recruitment接收电子邮件,我忽略它。如果没有使用手动注释构建的数据集,您是否有任何其他解决方

    0热度

    1回答

    我用简单的K均值聚类在秧鸡 聚类后,这一结果显示 迭代次数开始聚集:9 内平方集群总和错误:570.1974952009115 我的问题: 错误平方和的数量很大这是否意味着我的群集数是错误的?以及如何定义乐观的群集数量? 如何将数据拆分为训练和测试集以评估性能?以及如何知道正确的比例? 如何衡量SSB

    -1热度

    2回答

    根据元素风格(fontSize,fontWeight,...)从HTML文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性并将它们放在一个csv文件中,现在我需要知道如何对这些数据进行分类(或分类?),以便它可以给我例如所有fontSize为20px的元素,公差为+ - 5px。这些元素将被转换成h1标签,等等.. 编辑:我能够将fontSizes集群化为尽可能多

    0热度

    1回答

    我正在研究ISCX Dataset 2012以研究异常检测。我已经使用适用于Python的Weka库应用K均值聚类。 虽然它打印群集的信息, 它不允许我保存在某个变量聚类功能(平均每个功能), 也没有给我任何有关哪一个数组进入哪个集群。 我也搜索了其他库来执行聚类,但找不到解决方案。是否有其他选择来进行聚类后形成分析?

    0热度

    1回答

    我知道sklearn.model_selection.cross_val_score函数使用make_scorer()函数,该函数返回一个可调用函数来计算估计器的输出。 cross_val_score()函数中使用的评分函数是什么? 我想这是下面的选项之一: accuracy_score mean_squared_error adjusted_rand_index average_precisio

    0热度

    1回答

    我想预测下一个5个订单和每个订单中3个产品的数量。 我使用r和timeseries一个初学者,我看到使用arima例子,但他们只适用于衡量一两件事,而不是多个产品,如在我的例子。 我应该用arima吗? 我应该怎么做? 对不起,我的英语不好。先谢谢你。 dateordrer,product1,product2,product3 12/01/2012,2565,3254,635 25/01/20