one-hot-encoding

3热度

2回答

标题基本上捕捉我的问题。我有一个数据帧和多列有值如[0,1]，如果我去和一个热编码的DF，我会有多个同名的列。繁琐的解决方案是手动创建独特的列，但我有58列是分类，所以看起来不是很有效。我不确定这是否会有帮助，但这里是我的数据框的head()。 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 ... z217 z218 z219 z220 z221 z222 subject

-2热度

1回答

如何为一个热点编码因子变量提供3个以上的级别？

我想通过r中的一个热编码将因子变量表示为0和1的值作为data.frame。在因子变量中，我想只对三个或更多级别的变量执行一次热编码。这是我的R代码。 german<-read.csv("http://freakonometrics.free.fr/german_credit.csv", header=TRUE) F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,

1热度

1回答

培训数据准备

我正在尝试通过创建一个字符文本的热编码来准备数据文件，我可以稍后使用这些编码来训练我的模型进行分类。我有一个由字符行组成的训练数据文件，我最初正在做它们的整数编码，然后是一个热门编码。例如这是数据文件的外观： afafalkjfalkfalfjalfjalfjafajfaflajflajflajfajflajflajfjaljfafj fgtfafadargggagagagagagavcacac

0热度

2回答

Keras中需要一个热门编码吗？

我有一个标签从0到4的数据集。我使用以下代码将它们编码为np数组：labels = (np.arange(5) == labels[:, None]).astype(np.float32)。我的问题是，我们是否需要热门编码它们？我能否将标签从0-4保持为数字/浮动状态并使用它们？如果是这样如何？

0热度

2回答

独热编码器实现pandas.get_dummies，如何阅读语法

我读大熊猫文档来了解pandas.get_dummies >>> import pandas as pd >>> l = list('abca') >>> print l ['a', 'b', 'c', 'a'] >>> s = pd.Series(l) >>> print s 0 a 1 b 2 c 3 a 我创建了一个系列，如上图所示。当我呼吁这个系列get_dummi

1热度

1回答

“功能重要性”的'one-hot-encoded'变量的显示名称

完成我的算法的培训和验证后，如何正确显示'one-hot-encoded'功能的名称？我想整齐地显示每个功能的名称及其重要性。下面是我已经试过：显示功能的重要性： grid_search.best_estimator_.feature_importances_ array([ 7.67359589e-02, 7.20731884e-02, 4.38667330e-02, 1.692

1热度

1回答

pandas get_dummies如何记住哪个值成为哪个新类别？

使用get_dummies方法可以快速轻松地一次性编码多个分类变量，但是如何记住哪一个是哪个，以便我的测试数据与我的训练数据具有相同的特征？例如：我的训练数据集有一个明确的特征： X cat dog lion lion get_dummies后，我得到了这样的事情： X_1 X_2 X_3 1 0 0 0 1 0

2热度

1回答

使用熊猫或scikit-learn在多维数组上进行单向热编码

我正在尝试对我的数据帧进行一次热编码。这是一个多维数组，我不知道如何做到这一点。数据帧可以是这样的： df = pd.DataFrame({'menu': [['Italian', 'Greek'], ['Japanese'], ['Italian','Greek', 'Japanese']], 'price': ['$$', '$$', '$'], 'location': [['NY', 'CA

3热度

1回答

PySpark上的分类输入随机森林回归

我一直试图在PySpark上做一个简单的随机森林回归模型。我在R上有一个很好的机器学习经验。然而，对我而言，Pyspark上的ML似乎完全不同 - 尤其是当涉及到分类变量，字符串索引和OneHotEncoding的处理时（当只有数字变量时，我才能够仅通过以下示例执行RF回归）。虽然有很多示例可用于处理分类变量，例如this和this，但是我没有成功，因为它们中的大多数都超出了我的头（可能是因为我对

-1热度

3回答

如何处理数值分类变量在python xgboost中存在大量不同的值？

我想解决在python中使用xgboost的回归问题。但是我遇到了一个问题。我在很多地方搜索过它，但无法获得任何具体结果。我有一个食物聚合器的商业模式。我的平台上的用户可以从许多不同的餐馆订购。我想使用回归模型来预测订单的ETA（用于在用户放置它之后在应用上显示）。我正在考虑在我的训练模型中使用“restaurant_id”作为功能。但现在问题是我的平台上有超过100家餐馆。我不能使用它的数字