sklearn-pandas

    0热度

    1回答

    我是新来的机器学习和第一次尝试Sklearn。我有两个数据框,一个用于训练逻辑回归模型(具有10倍交叉验证)的数据和另一个用于使用该模型预测类('0,1')的数据。 这里是我到目前为止的代码使用教程我在Sklearn文档和Web上发现的位: import pandas as pd import numpy as np import sklearn from sklearn.linear_mo

    0热度

    1回答

    如何在结构化数据中的多列上做k? 在下面1列(名称)及其所完成的例子 tfidf_matrix = tfidf_vectorizer.fit_transform(df_new [“名”]) 这里仅使用名字,但说我们想用的名字和国家,我是否应该将国家添加到同一专栏如下? df_new['name'] = df_new['name'] + " " + df_new['country'] tfidf_

    2热度

    1回答

    我想从数据框(df)获取列名并将它们关联到由spearmanr相关函数生成的结果数组。我需要将列名(a-j)与相关值(spearman)和p值(spearman_pvalue)关联起来。有没有一种直观的方式来执行此任务? from scipy.stats import pearsonr,spearmanr import numpy as np import pandas as pd df=

    1热度

    1回答

    Duration Protocol Direction Label 12 tcp bi normal-V45 2 udp one Botnet-45 2 icmp bi Botnet-68 3 tcp one normal-V73 5 udp bi Background-tcp 3 icmp one Background 我想选择最后一列(

    3热度

    2回答

    其实,我的问题是基于: Is there a faster way to update dataframe column values based on conditions? 因此,数据应该是: import pandas as pd import io t=""" AV4MdG6Ihowv-SKBN_nB DTP,FOOD AV4Mc2vNhowv-SKBN_Rn Cash 1,FOO

    0热度

    1回答

    我有一个拥有帐户信息和取消原因的熊猫数据框。我清理了数据/词组化/删除了我自己的停用词来提出n克和频率。如何将所有ngram添加回原始数据集,以便频率与帐户级别信息一致?理想情况下,我希望采取这种方式并输出一份我可以提供给企业的文件。 有没有一种方法可以使用稀疏矩阵来实现这一点?不确定这是否可行,甚至可以扩展到更大的数据集。 下面是我想附加到原始数据帧的一些频率的图片。 frequencies c

    1热度

    2回答

    我想使用随机森林进行基于吉尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是该数据集的例子 VAR1 VAR2 198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db 我知道树木适用于离散数据(分类),但确实随机森林在Sklearn需要持续的数值数据先离散化还是可以处理?对于分类字符串变量我用下面的与零和一

    0热度

    1回答

    定制变压器我下面的sklearn_pandas穿行在sklearn_pandas README on github发现,我试图修改DateEncoder()定制变压器为例做2个额外的东西: 转换字符串类型的列以日期格式作为参数时的日期时间 当吐出新列时附加原始列名称。例如:如果输入列:Date1则输出:Date1_year,Date1_month,Date_1日。 这里是我的尝试(与sklearn

    0热度

    1回答

    嗨,这是我的代码: 当我尝试运行这个,我得到一个错误。 df = pd.read_csv(file, sep='|', encoding='latin-1') arreglox = df[df.columns['id':'date_in':'date_out':'objetive':'comments']].as_matrix() arregloy = df[df.columns[1]].

    -2热度

    1回答

    我有一个使用熊猫的问题。 我有这样一个表: 0 A B C d 1个S d F G ...... 和第一行中的每个元素是每个列的索引。 但我想在表格顶部添加一行,并且我希望新行成为每个colomn表的索引,我应该怎么做?谢谢!!!!