0
A
回答
0
如果您的数据是RDD,您可以拨打方法:saveAsLibSVMFile(rdd, path)
它是apache.spark.mllib.util.MLUtils
包的一部分。
对于官方文档看:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.util.MLUtils $
这里是Scala的例子假设你已经将您的分类数据为二进制的特点:(你可以做同样的Python或Java的太)
val responseData=sc.textFile("response.txt")
val responseValue = responseData.map(line => line.trim().split(" ").map(_.toDouble))
val featuresData=sc.textFile("features.txt")
val featuresValue = featuresData.map(line => {
val featureInt = line.trim().toInt
})
val data = featuresValue.zip(featuresData).map(
line => LabeledPoint(line._1, Vectors.dense(line._2))
)
saveAsLibSVMFile(data, "data.libsvm")
如果你想要的PySpark版本,没有测试过这个,但类似:
from pyspark.mllib.linalg import SparseVector
from pyspark.mllib.regression import LabeledPoint
responseData=sc.textFile("response.txt")
responseValue = responseData.map(lambda line: map(lambda x: Decimal(x), line.strip().split(" ")))
# for clarity you can also extract the lambda into a function
featuresData=sc.textFile("features.txt")
featuresValue = featuresData.map(lambda line: Int(line.strip()))
mtx = zip(featuresValue.collect(),featuresData.collect())
data = map(lambda line: LabeledPoint(line[0], Vectors.sparse(line[1]), mtx))
saveAsLibSVMFile(data, "data.libsvm")
相关问题
- 1. Apache Spark决策树预测
- 2. 决策树在树决策中保持使用Y变量
- 3. 如何使用Spark决策树调整分类阈值
- 4. 使用Apache Spark决策树分类器进行多类分类时出错
- 5. 带LIBSVM数据错误的Spark决策树
- 6. 完美的决策树分类
- 7. 决策树的文档分类
- 8. 多变量决策树学习
- 9. SKLearn决策树分类深度/订购
- 10. 如何处理spark tree中的决策树,随机森林的分类特征?
- 11. 处理决策树的分类特征的策略?
- 12. 带数值的ID3决策树
- 13. 在带有字符串字段的spark中使用决策树分类器的数据框
- 14. 决策树中的Shannon熵度量
- 15. 来自决策树的假设数量?
- 16. Python决策树 - 创建包含变量名称的决策树的图形表示
- 17. 决策树问题解决
- 18. 执行决策树
- 19. 决策树修剪
- 20. 修剪决策树
- 21. 决策树组件
- 22. weka决策树java
- 23. 建模决策树
- 24. 增量式决策树C++实现
- 25. Classifcation /决策树和选择拆分
- 26. 如何将我的决策树分类器变为手动过程?
- 27. 当不以规则为基础的分类优于决策树?
- 28. 该任务的决策树相关分类?
- 29. 使用scikit的多输出分类决策树
- 30. 如何处理决策树中的多个分类特征?
什么是features.txt只有分类数据或所有功能?并将代码与删除python中的所有“val”一起工作。 –
所有功能。我假设你已经将分类改为二元特征。该代码需要修改才能使用PySpark –
谢谢。我做了一些改变,但我得到了一些错误的zip说,“zip参数必须支持迭代。我也试图通过删除zip字,但然后错误是地图()必须有至少2个参数。请帮助。 –