categorical-data

    0热度

    2回答

    我对随机森林有疑问。想象一下,我有关于用户与物品交互的数据。项目数量很大,大约为10 000个。我的随机森林输出应该是用户可能与之交互的项目(如推荐系统)。对于任何用户,我想使用描述用户过去已与之进行交互的项目的功能。但是,将分类产品功能映射为单热编码看起来效率非常低,因为用户最多只能与几百个项目进行交互,有时甚至可能只有5个。 您将如何去关于构建一个随机森林时,其中一个输入要素是一个具有〜100

    1热度

    1回答

    熊猫分类https://pandas.pydata.org/pandas-docs/stable/categorical.html如何处理新的和看不到的水平?我正在考虑像设置一样的scikit-learn。目前,我有这样的: https://gist.github.com/geoHeil/5caff5236b4850d673b2c9b0799dc2ce def: fit() for ea

    1热度

    1回答

    我想知道在read_csv()过程中是否有读取分类值的方法。 通常情况下,你可以做这样的事实后转换的东西,如: df.zone = df.zone.astype('category') 此时DF占用更多的内存和我正在寻找一种方式来降低。 我已经试过了诸如: parking_meters = pd.read_csv('parking_meter_data.csv', con

    2热度

    1回答

    这个问题给出了排序y轴的解决方案:Data order in seaborn heatmap from pivot 但是如何对x轴和y轴执行自定义排序? 没有自定义排序,我们看到订单: x轴:电话,电视 y轴:苹果,谷歌,三星 代码: lol = [['apple', 'phone', 10], ['samsung', 'tv', 20], ['apple', 'tv', 5], ['google

    -2热度

    1回答

    我的R中的数据集如下所示: a <- c("M","F","F","F","M","M","F","F","F","M","F","F","M","M","F") p <- c("P","P","W","W","P","P","W","W","W","W","P","P","P","W","W") y1 <- c("yes","yes","null","no","no","no","yes",

    0热度

    1回答

    我是R新手,所以我的问题很简单。我正在尝试创建一个散点图,显示所有国家的数据,然后根据人口对气泡进行尺寸调整并按地区对它们进行着色。除了着色,我已经完成了一切。 这里是我的代码: attach(gapminder2) colors(distinct = FALSE) radius<-sqrt(gapminder2$Population/pi) plot(log(`CO2 Emissions

    -1热度

    1回答

    我使用带有固定效果''内'选项'的'plm'命令来运行我的面板回归。 因变量是数字,而所有自变量都是分类的或二元的,除了cgi,eui,sjump和rv。 三个二元变量cc,ce,cw应该代表4个类别的同一个分类变量,所以我排除了一个。 但是,当我尝试从这三个代表4个类别的二元变量中分析第四个类别的效果时,由于此固定效果模型没有给出可用于获得此效果的截距第四个分类变量,我必须设置所有的零。 我可以

    0热度

    1回答

    在Python/Scikit-learn GLM模型中是否可以像使用分类变量那样使用分类变量?我确实意识到单热编码的另一种选择。我对这种方法的问题是,我将无法测试整个变量的重要性。我只能测试编码变量(这是部分的)。 为什么SAS可以处理这样的变量而不是Python?请指教。

    0热度

    1回答

    系列下面是一个例子,以获得一点: missing_values=-999.0 level1=pd._libs.interval.Interval(-np.inf, 1, closed='right') level2=pd._libs.interval.Interval(1,np.inf, closed='right') data=pd.DataFrame({'a':[level1,miss

    0热度

    2回答

    我有一个名为diamonds的数据集。它有十个变量:克拉,切割,颜色,清晰度... 那么,我该如何编写代码来找出哪些变量是分类变量。 我现在使用class()函数来找出每个变量的类型,但我怎么让我的程序自动打印它? classVariables = sapply(diamonds, function(x) class(x))