1
从R
世界未来我想导入的.csv到使用Scala的壳牌火花(v.1.6.1)(./spark-shell
)星火和斯卡拉:阅读CSV文件中数据帧/数据集
我的.csv有一个标题,看起来像
"col1","col2","col3"
1.4,"abc",91
1.3,"def",105
1.35,"gh1",104
谢谢。
从R
世界未来我想导入的.csv到使用Scala的壳牌火花(v.1.6.1)(./spark-shell
)星火和斯卡拉:阅读CSV文件中数据帧/数据集
我的.csv有一个标题,看起来像
"col1","col2","col3"
1.4,"abc",91
1.3,"def",105
1.35,"gh1",104
谢谢。
星火2.0+
由于databricks/spark-csv
已经融入星火,阅读.CSVs是非常简单的使用SparkSession
val spark = .builder()
.master("local")
.appName("Word Count")
.getOrCreate()
val df = spark.read.option("header", true).csv(path)
旧版本
重启后我火星壳我自己想通了 - 可能对其他人有帮助:
安装等记载here和启动使用./spark-shell --packages com.databricks:spark-csv_2.11:1.4.0
火花后壳:
scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)
scala> val df = sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/home/vb/opt/spark/data/mllib/mydata.csv")
scala> df.printSchema()
root
|-- col1: double (nullable = true)
|-- col2: string (nullable = true)
|-- col3: integer (nullable = true)
什么火花吗?这是一个火花环境吗? –
不,启动Spark 2.0 spark引用新的'SparkSession',请参阅https://spark.apache.org/docs/2.1.0/api/scala/index.html#org.apache.spark.sql.SparkSession - I补充说,答案。谢谢 ! – Boern