0

我已经训练了一个非常小的数据集上的随机森林分类器。只有一个功能'位置'与目标'相关性'。我的代码是很短的,简单,可以在这里 https://github.com/sakshamyadav/ocm_test/blob/master/Untitled.ipynb如何对csv文件中的所有条目进行随机森林预测?

找到我想现在要做的,是这样的:用“位置”

  • 把列

    • 输入任何csv文件它通过我的训练随机森林算法,以确定其是相关,哪些不是(1或0)
    • 删除所有行,其中相关是0
    • 将结果保存为CSV

    而且,我很新的机器学习和将是知道是否有实现这个更简单的方法很感兴趣,我希望我的方法有任何意见或建议任务或者是否可以改进等。非常感谢:)

    PS我在jupyter笔记本代码中提供的示例数据集是完全随机的,我并不是要放下任何专业。

  • 回答

    0

    Asssuming从代码中的变量名:

    df = pd.read_csv('file_name.csv') 
    df = df[rfc.predict(df['Position']) != 0] 
    df.to_csv('new_clean_file.csv') 
    
    +0

    嗨拉斐尔! 'file_name.csv'中的所有位置都是字符串,所以我得到错误'ValueError:无法将字符串转换为浮点数:'Director Marketing,Communications&Online'。我必须以某种方式将其转换为数字或其他东西? – novice

    +0

    是的将其转换为'pd.to_numeric(df ['Position'],errors ='coerce')'https://stackoverflow.com/questions/42719749/pandas-convert-string-to-int – RafaelLopes