categorical-data

1热度

1回答

我有这个数据集至极的结构是这样 Neighborhood, var1, var2, COUNTRY, DAY, categ 1, categ 2 1 700 724 AL 0 YES YES 1 500 200 FR 0 YES NO .... 1 701 659 IT 1 NO YES 1 791 6

0热度

1回答

与变量Logistic回归不改变

各地不断变量和Logistic回归的几个问题 - 可以说我有一个连续变量，但只有1个在整个数据集值。我知道我应该理想地消除这个变量，因为它没有预测价值。而不是手动为每个功能执行此操作，Logistic回归会自动使这些变量的系数为0吗？如果使用这样的变量（即仅具有一个值）的Logistic回归与L1正则化，将正则迫使系数为0？在类似的路线上，如果我有一个分类变量，我有3个级别 - 第一级跨度表示

0热度

1回答

级别大小是否影响回归模型的结果？

我正在拟合具有两个独立分类变量和一个数字响应变量的回归模型。我在变量类别A和B中有两个级别;变化的颜色，红色，橙色和黄色三个级别。但这些级别的大小差别很大。我在此处打印出一个示例： Category Color Price A R 12 A R 43 A Y 32 A Y 31 A R 21 A Y 56 A Y 34

5热度

1回答

大熊猫：一列中列出了转换的多个列

我有一个数据帧，包括用逗号分隔的多个属性列： df = pd.DataFrame({'id': [1,2,3], 'labels' : ["a,b,c", "c,a", "d,a,b"]}) id labels 0 1 a,b,c 1 2 c,a 2 3 d,a,b （我知道这是不是一个理想的情况，但数据来自外部来源。）我想将多属性列转换为多列，每个标签一列，以便我可以将它们视为分类变量

0热度

1回答

如何找到在另一个指定级别之前发生的因素的级别？

我有物种到食物的到达时间的数据。我希望能够通过使用到达时间的got.here值来确定在每个屠体的breed_jackals和breed_hyena水平之前发生的breed的水平。我只想要在第一种情况下的订单carcass_336 我会得到一个值为jack，这将是breed_eagles。对于第二个屠体carcass_338我会有2级的鬣狗breed_lappets和breed_eagles按此

0热度

2回答

R：有效的方式来申请根据

我现在感到非常愚蠢的一个数据帧的列的功能，但我不能拿出超过为环... 我有一个数据帧带有数字和因子栏。我只是想要缩放数字列，并保留阶乘列。例如 > set.seed(160) > df1 <- data.frame(as.data.frame(matrix(rnorm(8), ncol=2)), V3=factor(c("A", "A", "B", "B"))) > df1

0热度

1回答

处理决策树的分类特征的策略？

在节点上，对于分类要素，我正在尝试使用全部（2^m -2）/ 2种可能的方法将m个不同的要素值分为两组。具有相同特征值的所有样本在考虑该特征时会作为一组移动到一起。问题是，当m为35（例如国家）时，我将不得不尝试17万亿次拆分。处理分类特征的任何替代方法？

0热度

1回答

scikit学习离散化分类数值数据

我正在尝试离散化分类数据。它们的值是字符串，我将它们转换为数字0,1,2,3。这就是数据的样子（熊猫数据框）。我有数据帧分成dataLabel和dataFeatures Label Feat1 Feat2 Feat3 0 0 3 0 1 1 1 2 2 0 2 2 3 1 3 3 我想用scikit学习的决策树和多项朴素贝叶斯，

1热度

1回答

如何将颜色比例标签移动到matplotlib/xarray中彩色字段的中间？

我有离散值（=类别/因子），创建了一个热图如下： import xarray dats = xarray.DataArray([[2,4,3,5,1],[8,4,5,3,2], [9,3,4,4,1]]) dats.plot(levels=range(0, 11, 1), cmap='Blues') 我想在色标/图例移动号码的中间各自的领域。我（及其同事）发现它们在交叉点处的位置有点误导，

1热度

1回答

Lavaan - CFA - 分类变量 - 最后一个门限很奇怪

我有一个问题需要用Lavaan（R）执行多组CFA。事实上，我有几个分类变量和一些变量包含11个类别。所以我会为这些变量设定10个阈值。在附件中，您可以找到我的结果的一部分。在这幅图中，你可以看到我有10个阈值，但第10个阈值小于第9个，它没有按照压痕顺序排列。我有11个类别的几个变量，这是每个变量的相同问题。我的问题是：为什么不在压痕顺序？在这里，你可以找到我的R-代码的一部分： mode