data-mining

0热度

1回答

LOF的不同运行时间

我正在使用Elki运行LOF算法，但每次我在Elki运行LOF算法时，Elki都会在同一数据集上给出不同的运行时间。我很困惑，为什么会发生这种情况？

1热度

1回答

如何分析非结构化文本？

我使用TF-IDF来影响可以帮助我构建字典的重量。但我的模型不够好，因为我有非结构化文本。有关TF-IDF类似算法的任何建议？

-3热度

2回答

机器学习：NBA数据寻找季节的MVP

我想用NBA数据找到特定赛季的MVP。我正在研究一些算法，如神经网络，AdaBoost，随机森林和决策树。我真的想使用AdaBoost，但AdaBoost的问题在于，如果我使用决策树桩作为我的弱学习者，似乎只能使用一个功能。我想使用所有的数据，比如上场时间，积分和站位/记录来查看是否可以对该赛季的MVP进行分类。我想知道是否有任何机器学习算法可以用于此项目，或者让我知道是否可以将这些算法用于我想要

0热度

1回答

随机森林中的子集

在随机森林中。每个子集随机采集以构建树。但是，我们怎样才能确定我们正在采取一个独特的子集。如果我的N = 2，2个随机样本要生成树来生成。随着数据的随机选择，同样的数据可以进入其他子集。我们如何确保这样做。有没有相同的机制？

3热度

1回答

确定是否电子邮件地址的邮件列表地址或个人电子邮件地址

现在我建立一个功能来确定电子邮件地址是否邮件列表地址/组电子邮件地址或个人电子邮件地址。我目前的策略是使用人工手动注释，然后使用这些数据来确定传入的邮件地址。例如[email protected]，是邮寄地址，所以我保存这个电子邮件地址recruitment和标记作为组的名称，所以在将来如果有名字recruitment接收电子邮件，我忽略它。如果没有使用手动注释构建的数据集，您是否有任何其他解决方

0热度

1回答

如何评价我的聚类算法

我用简单的K均值聚类在秧鸡聚类后，这一结果显示迭代次数开始聚集：9 内平方集群总和错误：570.1974952009115 我的问题：错误平方和的数量很大这是否意味着我的群集数是错误的？以及如何定义乐观的群集数量？如何将数据拆分为训练和测试集以评估性能？以及如何知道正确的比例？如何衡量SSB

-1热度

2回答

根据元素风格从html中提取标题和段落

根据元素风格（fontSize，fontWeight，...）从HTML文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性并将它们放在一个csv文件中，现在我需要知道如何对这些数据进行分类（或分类？），以便它可以给我例如所有fontSize为20px的元素，公差为+ - 5px。这些元素将被转换成h1标签，等等.. 编辑：我能够将fontSizes集群化为尽可能多

0热度

1回答

我们如何分析Python中的集群功能来制定异常检测模式？

我正在研究ISCX Dataset 2012以研究异常检测。我已经使用适用于Python的Weka库应用K均值聚类。虽然它打印群集的信息，它不允许我保存在某个变量聚类功能（平均每个功能），也没有给我任何有关哪一个数组进入哪个集群。我也搜索了其他库来执行聚类，但找不到解决方案。是否有其他选择来进行聚类后形成分析？

0热度

1回答

sklearn.model_selection.cross_val_score的得分函数公式是什么？

我知道sklearn.model_selection.cross_val_score函数使用make_scorer()函数，该函数返回一个可调用函数来计算估计器的输出。 cross_val_score()函数中使用的评分函数是什么？我想这是下面的选项之一： accuracy_score mean_squared_error adjusted_rand_index average_precisio

0热度

1回答

预测倍数产品数据

我想预测下一个5个订单和每个订单中3个产品的数量。我使用r和timeseries一个初学者，我看到使用arima例子，但他们只适用于衡量一两件事，而不是多个产品，如在我的例子。我应该用arima吗？我应该怎么做？对不起，我的英语不好。先谢谢你。 dateordrer,product1,product2,product3 12/01/2012,2565,3254,635 25/01/20