one-hot-encoding

    3热度

    2回答

    标题基本上捕捉我的问题。 我有一个数据帧和多列有值如[0,1],如果我去和一个热编码的DF,我会有多个同名的列。 繁琐的解决方案是手动创建独特的列,但我有58列是分类,所以看起来不是很有效。 我不确定这是否会有帮助,但这里是我的数据框的head()。 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 ... z217 z218 z219 z220 z221 z222 subject

    -2热度

    1回答

    我想通过r中的一个热编码将因子变量表示为0和1的值作为data.frame。 在因子变量中,我想只对三个或更多级别的变量执行一次热编码。 这是我的R代码。 german<-read.csv("http://freakonometrics.free.fr/german_credit.csv", header=TRUE) F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,

    1热度

    1回答

    我正在尝试通过创建一个字符文本的热编码来准备数据文件,我可以稍后使用这些编码来训练我的模型进行分类。我有一个由字符行组成的训练数据文件,我最初正在做它们的整数编码,然后是一个热门编码。 例如这是数据文件的外观: afafalkjfalkfalfjalfjalfjafajfaflajflajflajfajflajflajfjaljfafj fgtfafadargggagagagagagavcacac

    0热度

    2回答

    我有一个标签从0到4的数据集。我使用以下代码将它们编码为np数组:labels = (np.arange(5) == labels[:, None]).astype(np.float32)。我的问题是,我们是否需要热门编码它们?我能否将标签从0-4保持为数字/浮动状态并使用它们?如果是这样如何?

    0热度

    2回答

    我读大熊猫文档来了解pandas.get_dummies >>> import pandas as pd >>> l = list('abca') >>> print l ['a', 'b', 'c', 'a'] >>> s = pd.Series(l) >>> print s 0 a 1 b 2 c 3 a 我创建了一个系列,如上图所示。 当我呼吁这个系列get_dummi

    1热度

    1回答

    完成我的算法的培训和验证后,如何正确显示'one-hot-encoded'功能的名称?我想整齐地显示每个功能的名称及其重要性。下面是我已经试过: 显示功能的重要性: grid_search.best_estimator_.feature_importances_ array([ 7.67359589e-02, 7.20731884e-02, 4.38667330e-02, 1.692

    1热度

    1回答

    使用get_dummies方法可以快速轻松地一次性编码多个分类变量,但是如何记住哪一个是哪个,以便我的测试数据与我的训练数据具有相同的特征?例如: 我的训练数据集有一个明确的特征: X cat dog lion lion get_dummies后,我得到了这样的事情: X_1 X_2 X_3 1 0 0 0 1 0

    2热度

    1回答

    我正在尝试对我的数据帧进行一次热编码。这是一个多维数组,我不知道如何做到这一点。数据帧可以是这样的: df = pd.DataFrame({'menu': [['Italian', 'Greek'], ['Japanese'], ['Italian','Greek', 'Japanese']], 'price': ['$$', '$$', '$'], 'location': [['NY', 'CA

    3热度

    1回答

    我一直试图在PySpark上做一个简单的随机森林回归模型。我在R上有一个很好的机器学习经验。然而,对我而言,Pyspark上的ML似乎完全不同 - 尤其是当涉及到分类变量,字符串索引和OneHotEncoding的处理时(当只有数字变量时,我才能够仅通过以下示例执行RF回归)。虽然有很多示例可用于处理分类变量,例如this和this,但是我没有成功,因为它们中的大多数都超出了我的头(可能是因为我对

    -1热度

    3回答

    我想解决在python中使用xgboost的回归问题。但是我遇到了一个问题。我在很多地方搜索过它,但无法获得任何具体结果。 我有一个食物聚合器的商业模式。我的平台上的用户可以从许多不同的餐馆订购。 我想使用回归模型来预测订单的ETA(用于在用户放置它之后在应用上显示)。我正在考虑在我的训练模型中使用“restaurant_id”作为功能。但现在问题是我的平台上有超过100家餐馆。我不能使用它的数字