星火和斯卡拉：阅读CSV文件中数据帧/数据集

从R世界未来我想导入的.csv到使用Scala的壳牌火花（v.1.6.1）（./spark-shell）星火和斯卡拉：阅读CSV文件中数据帧/数据集

我的.csv有一个标题，看起来像

"col1","col2","col3" 
1.4,"abc",91 
1.3,"def",105 
1.35,"gh1",104

谢谢。

来源

2016-05-17 Boern

星火2.0+

由于databricks/spark-csv已经融入星火，阅读.CSVs是非常简单的使用SparkSession

val spark = .builder() 
    .master("local") 
    .appName("Word Count") 
    .getOrCreate() 
val df = spark.read.option("header", true).csv(path)

旧版本

重启后我火星壳我自己想通了 - 可能对其他人有帮助：

安装等记载here和启动使用./spark-shell --packages com.databricks:spark-csv_2.11:1.4.0火花后壳：

scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
scala> val df = sqlContext.read.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .option("inferSchema", "true") 
    .load("/home/vb/opt/spark/data/mllib/mydata.csv") 
scala> df.printSchema() 
root 
|-- col1: double (nullable = true) 
|-- col2: string (nullable = true) 
|-- col3: integer (nullable = true)

来源

2016-05-17 08:55:20 Boern

什么火花吗？这是一个火花环境吗？ –

不，启动Spark 2.0 spark引用新的'SparkSession'，请参阅https://spark.apache.org/docs/2.1.0/api/scala/index.html#org.apache.spark.sql.SparkSession - I补充说，答案。谢谢！ – Boern

星火和斯卡拉：阅读CSV文件中数据帧/数据集

回答

相关问题