我有一个[66k,56k]大小(行,列)的csv文件。它是一个稀疏矩阵。我知道numpy可以处理矩阵的大小。我想知道基于每个人的经验,scikit-learn算法可以轻松处理多少功能?scikit-学习句柄有多少功能?
5
A
回答
12
取决于估计量。在这个尺寸下,线性模型仍然表现良好,而支持向量机可能会永远训练(并且忘记随机森林,因为他们不会处理稀疏矩阵)。
我亲自使用了LinearSVC
,LogisticRegression
和SGDClassifier
,大小约为300k×330万的稀疏矩阵没有任何问题。请参阅@ amueller的scikit-learn cheat sheet,以便为手头的工作选择正确的估算值。
完全披露:我是一个scikit学习的核心开发人员。
1
如果您需要频繁地训练模型,某些线性模型(回归,SGD,贝叶斯)可能是您最好的选择。
虽然你去跑步任何模型之前,你可以试试下面的
1)功能降低。您的数据中是否有可以轻松删除的功能?例如,如果您的数据是文字或评分,则可以使用很多已知的选项。
2)学习曲线分析。也许你只需要一小部分数据来训练一个模型,然后你就只适合你的数据或者精确度的提高。
这两种方法都可以让您大大减少所需的训练数据。
相关问题
- 1. Scikit学习SVM功能名称
- 2. OneClassSVM scikit学习
- 3. 路径scikit学习
- 4. Scikit学习分类
- 5. 使用计数和tfidf作为功能与scikit学习
- 6. 回归数据的Scikit学习功能选择
- 7. 在scikit中选择次优功能学习
- 8. Scikit学习基于树的功能选择保留列名称?
- 9. Scikit学习管道中是否存在“Or”功能
- 10. 用Scikit学习Unigram分析
- 11. 误差scikit学习CV
- 12. Scikit学习TruncatedSVD文档
- 13. scikit学习安装难度
- 14. Scikit学习:preprocessing.scale()与preprocessing.StandardScalar()
- 15. 警告消息scikit学习
- 16. Startified GroupShuffleSplit在Scikit学习
- 17. scikit从coef_学习预测
- 18. scikit在KNeighbors上学习GridSearchCV
- 19. 特征选择Scikit学习
- 20. DBSCAN(只有指标)scikit学习
- 21. 努力学习壳功能
- 22. 使用scikit学习字典学习中的内存错误学习
- 23. scikit学习PCA变换返回不正确的减少长篇
- 24. 问题与机器学习scikit在Python学习
- 25. 具有许多离散功能的机器学习数据集
- 26. TF-IDF简单使用 - NLTK/Scikit学习
- 27. scikit学习决策树模型评估
- 28. 将python scikit学习模型导入pmml
- 29. 如何创建scikit学习数据集?
- 30. 不同的结果scikit学习wapper
我正在处理的任务是回归。但是,了解sklearn如何处理高维数据通常会很有用。 – viper 2013-05-02 16:24:05