1
我已经使用sqlContext创建了要读取csv文件的数据框,我需要将表列转换为RDD,然后使用密集的Vector来执行矩阵乘法。 我发现很难这样做。如何使用sql上下文将数据框转换为RDD
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header","true")
.option("inferSchema","true")
.load("/home/project/SparkRead/train.csv")
val result1 = sqlContext.sql("SELECT Sales from train").rdd
如何将其转换为密载体?
您可以添加DataFrame的模式吗? – eliasah
@eliasah 模式: – Freeman
@eliasah 模式: 根 | - 存储:整数(可为空=真) | - 工作日:整数(可为空=真) | - 日期:date(可为空= true) | - 销售:整数(可空值= true) | - 客户:整数(可空值= true) | - 开放:整数(可空值= true) | - 促销:integer(nullable = true) | - StateHoliday:integer(nullable = true) | - SchoolHoliday:integer(nullable = true) – Freeman