data-mining

0热度

1回答

使用R编程我正在处理来自作业广告的文字文件（c＃，C++，.net），当我将它转换为标记＃，++和点被删除。我怎样才能让他们在结果令牌？ unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

0热度

2回答

本地差分隐私实现的广义随机响应

我一直负责实施本地（非交互式）差分隐私机制。我正在处理一个庞大的人口普查数据库。唯一的敏感属性是“数量的孩子”，这是一个数值范围从0到13. 我决定采用通用随机响应机制，因为它看起来像最直观的方法。该机制描述为here并呈现为here。将每个值加载到数组（现在忽略其他属性）之后，我按如下所示执行扰动。 d = 14 # values may range from 0 to 13 eps =

0热度

1回答

有可能我们在决策树和线性分隔符的组合上使用bagging？

我们是否可能使用决策树和线性分隔符的组合来装袋？我知道bagging可以用于决策树或线性分离器。但组合如何？任何想法？

0热度

1回答

有人可以解释如何使用Ward的方法来初始化K-means吗？

我理解使用Ward方法作为邻近性度量的HAC（层次凝聚聚类）。但是一旦我这样做，我该如何使用它来初始化k-means？我是否按照我已经计划用于k-means的预定k获取k个群集？或者层次聚类是否也帮助我选择k？

0热度

1回答

SelectPercentile得分函数如何工作？

最近我正在研究Dimension Reduction方法，我发现python包“sklearn.feature_selection”看起来很有用，但问题在于SelectPercentile.fit方法没有解释它如何计算得分函数。 link 有谁知道它是如何工作的？先谢谢了。例如，如果我为“SelectPercentile”选择“SelectFdr”，并且SelectFdr方法的标准取决于每个要素的

-3热度

1回答

非结构化数据如何实现数据挖掘？

我有非结构化数据（应用程序屏幕截图）和半结构化数据（屏幕转储文件），我选择将其存储在hbase中。我的目标是找到应用程序上的缺陷或问题（意味着完整的数据）。现在，我想对这些应用数据挖掘，这是一种文本挖掘？以及我如何在这些数据上应用一些数据挖掘技术？

0热度

1回答

weka.apriori中的java堆空间错误

我在我的数据上实现了Aprioiri算法。数据近700条记录，近81个属性。我想为这些数据生成关联规则。这是我的程序代码： public class Aprioritest { /** * @param args the command line arguments */ public static void main(String[] args) throws Exception {

0热度

1回答

RapidMiner - 将多项式属性更改为数字/整数

我正在使用RapidMiner进行学习，我希望在我的数据集上运行线性规则。但是我得到这个方法/技术无法处理多项式属性的错误。如何找出这个问题的最佳方法是什么？这些属性是基本字符串，也是非常重要的输入。是否有某种技术如何将这些字符串，多项式属性转换为数字或整数或其他？

2热度

2回答

如何删除主题建模（LDA）不必要的信息

如何删除主题建模（LDA）不必要的信息你好，我想创建主题建模。我的数据是这种结构。 1. Doesn't taste good to me. 2. Most delicious ramen I have ever had. Spicy and tasty. Great price too. 3. I have this on my subscription, my family loves

-2热度

1回答

如何接受我的机器学习模型的非csv输入？

语言：Python。我创建了一个模型并将其与joblib一起保存。现在我想加载它来预测新数据---但是数据是以字符串的形式表示的（数值在数值中，但是特征是用“，”分隔的一行代替，而不是作为一个大数据框在列中）我这样做？我知道我可以发送单个输入并获得单个预测，但我不知道如何执行此操作。我用 https://machinelearningmastery.com/save-load-machine-