有什么办法来解析使用数据集 这里多JSON文件示例代码如何分析数据集中阿帕奇火花Java中的多JSON
public static void main(String[] args) {
// creating spark session
SparkSession spark = SparkSession.builder().appName("Java Spark SQL basic example")
.config("spark.some.config.option", "some-value").getOrCreate();
Dataset<Row> df = spark.read().json("D:/sparktestio/input.json");
df.show();
}
它完美的作品,如果JSON是在一行,但我需要它的多线
我的JSON文件
{
"name": "superman",
"age": "unknown",
"height": "6.2",
"weight": "flexible"
}
[Apache Spark读取一个复杂的JSON文件每个记录RDD或DF]的可能重复(http://stackoverflow.com/questions/34646232/apache-spark-read-one-complex-json-file-per-record -rdd-or-df) – 2016-11-10 06:00:46
@rahul:访问此json文件时遇到了什么问题? – Shankar
我的JSON有空格,数据集读取包含整个对象的单行JSON文件,因此无法解析它的响应:+ -------------------- + | _corrupt_record | + -------------------- + | {| | “name”:“superm ... | |”age“:”unknown“,| |”height“:”6.2“,| |”weight“:”flex ... | | } | + -------------------- + – rahul