sklearn-pandas

1热度

1回答

我需要将数据帧拆分为2部分。例如，如果数据帧在下面被分割随机基于Col1中两个文件应当从每个类别1,2-包含样品和3 Col1 col2 1 a 1 b 2 c 2 d 3 e 到目前为止我能够通过使用sklearn.cross_validation import train_test_split到数据转换成所期望的比例分割。但我无法弄清楚如何分割来从每个类别中提取样本。

1热度

1回答

slearn标准缩放器转换VS fit_transform输出

我正在使用sklearn标准缩放器来标准化熊猫数据框中的某些列。虽然fit_transform按预期工作，但转换不会。这是我做的： non_categorical_variable = ['var1','var5'] scaler = StandardScaler() train[non_categorical_variable] = scaler.fit_transform(train[no

0热度

2回答

在Python中创建稀疏矩阵

使用数据并希望创建稀疏矩阵以便稍后用于群集目的。 fileHandle = open('data', 'r') for line in fileHandle: json_list = [] fields = line.split('\t') json_list.append(fields[0]) json_list.append(fields[1])

-1热度

2回答

sklearn线性回归系数具有单个值输出

我正在使用数据集来查看工资与大学GPA之间的关系。我正在使用sklearn线性回归模型。我认为这些系数应该是拦截和关闭的。相应功能的值。但该模型给出了单一的价值。 from sklearn.cross_validation import train_test_split from sklearn.linear_model import LinearRegression # Use only

1热度

2回答

是否可以从pandas.get_dummies获取功能名称？

我想知道是否可以获取pandas.get_dummies的功能名称，以便我可以将它传递给export_graphviz。我正在使用get_dummies编码我的数据集sklearn DecisionTreeClassifier。当我导出树时，我希望节点的输出更易于阅读。预先感谢您！编辑：这里是什么，我试图完成一个例子： #Concatenate the sets concated = pd

5热度

1回答

如何在Python中快速计算大量向量的余弦相似度？

我有一套100万载体，我需要检索基于余弦相似性的前25名最接近的向量。 Scipy和Sklearn有用于计算余弦距离/相似度2矢量的实现，但我需要计算100k X 100k大小的余弦模拟，然后取出前25。 Python计算中有没有快速的实现？按@Silmathoron建议，这是我在做什么 - 第一 #vectors is a list of vectors of size : 100K x 40

2热度

3回答

Python，Roc曲线和ggplot？

我遵循教程来显示roc曲线和相应的auc;我从来没有使用ggplot库，因此我不明白我的错误在哪里。这里下面的代码： from sklearn import metrics import pandas as pd from ggplot import * preds = clf.predict_proba(Xtest)[:,1] fpr, tpr, _ =

0热度

1回答

使用sklearn与Python在数据框上执行PCA

我有一个包含所有变体的许多行的示例输入文件，而列表示组件的数量。 A01_01 A01_02 A01_03 A01_04 A01_05 A01_06 A01_07 A01_08 A01_09 A01_10 A01_11 A01_12 A01_13 A01_14 A01_15 A01_16 A01_17 A01_18 A01_19 A01_20 A01_21 A01_22 A01_23 A01_24

1热度

1回答

最佳实践，以“运输”培训了来自sklearn模型

import matplotlib.pyplot as plt import numpy as np from sklearn import datasets, linear_model # Create linear regression object regr = linear_model.LinearRegression() # Train the model using t

4热度

1回答

没有模块Pycharm

命名为 '熊猫' 我读了所有有关的话题，但我解决不了我的问题： Traceback (most recent call last): File "/home/.../.../.../reading_data.py", line 1, in <module> import pandas as pd ImportError: No module named pandas