我从https://censys.io/
下载的文件xxxx.json.lz4
然而,当我尝试使用以下行的0.如何星火解压LZ4 JSON 2
metadata_lz4 = spark.read.json("s3n://file.json.lz4")
返回我没有得到任何数据输出/计数读取文件没有结果,尽管手动解压缩可以正常工作,并且可以导入到Spark中。
我也曾尝试
val metadata_lz4_2 = spark.sparkContext.newAPIHadoopFile("s3n://file.json.lz4", classOf[TextInputFormat], classOf[LongWritable], classOf[Text])
其中还没有返回结果。
我有这些文件的多个是100GBs
每个这样真正热衷于不需要手动解压每一个。
任何想法?