sklearn-pandas

0热度

1回答

我是新来的机器学习和第一次尝试Sklearn。我有两个数据框，一个用于训练逻辑回归模型（具有10倍交叉验证）的数据和另一个用于使用该模型预测类（'0,1'）的数据。这里是我到目前为止的代码使用教程我在Sklearn文档和Web上发现的位： import pandas as pd import numpy as np import sklearn from sklearn.linear_mo

0热度

1回答

k表示使用python的结构化数据 - 多于一列

如何在结构化数据中的多列上做k？在下面1列（名称）及其所完成的例子 tfidf_matrix = tfidf_vectorizer.fit_transform（df_new [“名”]）这里仅使用名字，但说我们想用的名字和国家，我是否应该将国家添加到同一专栏如下？ df_new['name'] = df_new['name'] + " " + df_new['country'] tfidf_

2热度

1回答

python scipy spearman相关

我想从数据框（df）获取列名并将它们关联到由spearmanr相关函数生成的结果数组。我需要将列名（a-j）与相关值（spearman）和p值（spearman_pvalue）关联起来。有没有一种直观的方式来执行此任务？ from scipy.stats import pearsonr,spearmanr import numpy as np import pandas as pd df=

1热度

1回答

如何选择最后一列数据帧包含特定值的行

Duration Protocol Direction Label 12 tcp bi normal-V45 2 udp one Botnet-45 2 icmp bi Botnet-68 3 tcp one normal-V73 5 udp bi Background-tcp 3 icmp one Background 我想选择最后一列（

3热度

2回答

如何做pd.get_dummies或其他方式？

其实，我的问题是基于： Is there a faster way to update dataframe column values based on conditions? 因此，数据应该是： import pandas as pd import io t=""" AV4MdG6Ihowv-SKBN_nB DTP,FOOD AV4Mc2vNhowv-SKBN_Rn Cash 1,FOO

0热度

1回答

如何将列的ngram频率返回到原始数据帧？

我有一个拥有帐户信息和取消原因的熊猫数据框。我清理了数据/词组化/删除了我自己的停用词来提出n克和频率。如何将所有ngram添加回原始数据集，以便频率与帐户级别信息一致？理想情况下，我希望采取这种方式并输出一份我可以提供给企业的文件。有没有一种方法可以使用稀疏矩阵来实现这一点？不确定这是否可行，甚至可以扩展到更大的数据集。下面是我想附加到原始数据帧的一些频率的图片。 frequencies c

1热度

2回答

在Sklearn中为RandomForest分散连续变量

我想使用随机森林进行基于吉尼指数的特征选择。我的数据集混合了数字（连续）和分类（字符串）数据。这是该数据集的例子 VAR1 VAR2 198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db 我知道树木适用于离散数据（分类），但确实随机森林在Sklearn需要持续的数值数据先离散化还是可以处理？对于分类字符串变量我用下面的与零和一

0热度

1回答

其将日期，新列

定制变压器我下面的sklearn_pandas穿行在sklearn_pandas README on github发现，我试图修改DateEncoder（）定制变压器为例做2个额外的东西：转换字符串类型的列以日期格式作为参数时的日期时间当吐出新列时附加原始列名称。例如：如果输入列：Date1则输出：Date1_year，Date1_month，Date_1日。这里是我的尝试（与sklearn

0热度

1回答

蟒蛇与熊猫矩阵JupyterNotebook（）

嗨，这是我的代码：当我尝试运行这个，我得到一个错误。 df = pd.read_csv(file, sep='|', encoding='latin-1') arreglox = df[df.columns['id':'date_in':'date_out':'objetive':'comments']].as_matrix() arregloy = df[df.columns[1]].

-2热度

1回答

如何使用熊猫在表格中添加一行作为索引？

我有一个使用熊猫的问题。我有这样一个表： 0 A B C d 1个S d F G ...... 和第一行中的每个元素是每个列的索引。但我想在表格顶部添加一行，并且我希望新行成为每个colomn表的索引，我应该怎么做？谢谢！！！！