sklearn-pandas

    1热度

    1回答

    我需要将数据帧拆分为2部分。例如,如果数据帧在下面被分割随机基于Col1中两个文件应当从每个类别1,2-包含样品和3 Col1 col2 1 a 1 b 2 c 2 d 3 e 到目前为止我能够通过使用sklearn.cross_validation import train_test_split到数据转换成所期望的比例分割。 但我无法弄清楚如何分割来从每个类别中提取样本。

    1热度

    1回答

    我正在使用sklearn标准缩放器来标准化熊猫数据框中的某些列。虽然fit_transform按预期工作,但转换不会。这是我做的: non_categorical_variable = ['var1','var5'] scaler = StandardScaler() train[non_categorical_variable] = scaler.fit_transform(train[no

    0热度

    2回答

    使用数据并希望创建稀疏矩阵以便稍后用于群集目的。 fileHandle = open('data', 'r') for line in fileHandle: json_list = [] fields = line.split('\t') json_list.append(fields[0]) json_list.append(fields[1])

    -1热度

    2回答

    我正在使用数据集来查看工资与大学GPA之间的关系。我正在使用sklearn线性回归模型。我认为这些系数应该是拦截和关闭的。相应功能的值。但该模型给出了单一的价值。 from sklearn.cross_validation import train_test_split from sklearn.linear_model import LinearRegression # Use only

    1热度

    2回答

    我想知道是否可以获取pandas.get_dummies的功能名称,以便我可以将它传递给export_graphviz。我正在使用get_dummies编码我的数据集sklearn DecisionTreeClassifier。当我导出树时,我希望节点的输出更易于阅读。 预先感谢您! 编辑: 这里是什么,我试图完成一个例子: #Concatenate the sets concated = pd

    5热度

    1回答

    我有一套100万载体,我需要检索基于余弦相似性的前25名最接近的向量。 Scipy和Sklearn有用于计算余弦距离/相似度2矢量的实现,但我需要计算100k X 100k大小的余弦模拟,然后取出前25。 Python计算中有没有快速的实现? 按@Silmathoron建议,这是我在做什么 - 第一 #vectors is a list of vectors of size : 100K x 40

    2热度

    3回答

    我遵循教程来显示roc曲线和相应的auc;我从来没有使用ggplot库,因此我不明白我的错误在哪里。这里下面的代码: from sklearn import metrics import pandas as pd from ggplot import * preds = clf.predict_proba(Xtest)[:,1] fpr, tpr, _ =

    0热度

    1回答

    我有一个包含所有变体的许多行的示例输入文件,而列表示组件的数量。 A01_01 A01_02 A01_03 A01_04 A01_05 A01_06 A01_07 A01_08 A01_09 A01_10 A01_11 A01_12 A01_13 A01_14 A01_15 A01_16 A01_17 A01_18 A01_19 A01_20 A01_21 A01_22 A01_23 A01_24

    1热度

    1回答

    import matplotlib.pyplot as plt import numpy as np from sklearn import datasets, linear_model # Create linear regression object regr = linear_model.LinearRegression() # Train the model using t

    4热度

    1回答

    命名为 '熊猫' 我读了所有有关的话题,但我解决不了我的问题: Traceback (most recent call last): File "/home/.../.../.../reading_data.py", line 1, in <module> import pandas as pd ImportError: No module named pandas