data-mining

    0热度

    1回答

    使用R编程 我正在处理来自作业广告的文字文件(c#,C++,.net),当我将它转换为标记#,++和点被删除。 我怎样才能让他们在结果令牌? unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

    0热度

    2回答

    我一直负责实施本地(非交互式)差分隐私机制。我正在处理一个庞大的人口普查数据库。唯一的敏感属性是“数量的孩子”,这是一个数值范围从0到13. 我决定采用通用随机响应机制,因为它看起来像最直观的方法。该机制描述为here并呈现为here。 将每个值加载到数组(现在忽略其他属性)之后,我按如下所示执行扰动。 d = 14 # values may range from 0 to 13 eps =

    0热度

    1回答

    我们是否可能使用决策树和线性分隔符的组合来装袋? 我知道bagging可以用于决策树或线性分离器。但组合如何? 任何想法?

    0热度

    1回答

    我理解使用Ward方法作为邻近性度量的HAC(层次凝聚聚类)。但是一旦我这样做,我该如何使用它来初始化k-means?我是否按照我已经计划用于k-means的预定k获取k个群集?或者层次聚类是否也帮助我选择k?

    0热度

    1回答

    最近我正在研究Dimension Reduction方法,我发现python包“sklearn.feature_selection”看起来很有用,但问题在于SelectPercentile.fit方法没有解释它如何计算得分函数。 link 有谁知道它是如何工作的?先谢谢了。例如,如果我为“SelectPercentile”选择“SelectFdr”,并且SelectFdr方法的标准取决于每个要素的

    -3热度

    1回答

    我有非结构化数据(应用程序屏幕截图)和半结构化数据(屏幕转储文件),我选择将其存储在hbase中。我的目标是找到应用程序上的缺陷或问题(意味着完整的数据)。现在,我想对这些应用数据挖掘,这是一种文本挖掘?以及我如何在这些数据上应用一些数据挖掘技术?

    0热度

    1回答

    我在我的数据上实现了Aprioiri算法。数据近700条记录,近81个属性。我想为这些数据生成关联规则。 这是我的程序代码: public class Aprioritest { /** * @param args the command line arguments */ public static void main(String[] args) throws Exception {

    0热度

    1回答

    我正在使用RapidMiner进行学习,我希望在我的数据集上运行线性规则。但是我得到这个方法/技术无法处理多项式属性的错误。 如何找出这个问题的最佳方法是什么?这些属性是基本字符串,也是非常重要的输入。 是否有某种技术如何将这些字符串,多项式属性转换为数字或整数或其他?

    2热度

    2回答

    如何删除主题建模(LDA)不必要的信息 你好,我想创建主题建模。 我的数据是这种结构。 1. Doesn't taste good to me. 2. Most delicious ramen I have ever had. Spicy and tasty. Great price too. 3. I have this on my subscription, my family loves

    -2热度

    1回答

    语言:Python。 我创建了一个模型并将其与joblib一起保存。现在我想加载它来预测新数据---但是数据是以字符串的形式表示的(数值在数值中,但是特征是用“,”分隔的一行代替,而不是作为一个大数据框在列中)我这样做?我知道我可以发送单个输入并获得单个预测,但我不知道如何执行此操作。 我用 https://machinelearningmastery.com/save-load-machine-