阅读来自实木复合材料的特定列而不使用Spark

我正在尝试阅读Parquet文件而不使用Apache Spark，我能够做到这一点，但我发现很难阅读特定的列。我无法找到任何Google的优质资源，因为几乎所有的帖子都是关于阅读使用的镶木地板文件。下面是我的代码：阅读来自实木复合材料的特定列而不使用Spark

import org.apache.hadoop.fs.{FileSystem, Path} 
import org.apache.avro.generic.GenericRecord 
import org.apache.parquet.hadoop.ParquetReader 
import org.apache.parquet.avro.AvroParquetReader 

object parquetToJson{ 
    def main (args : Array[String]):Unit= { 
//case class Customer(key: Int, name: String, sellAmount: Double, profit: Double, state:String) 
val parquetFilePath = new Path("data/parquet/Customer/") 
val reader = AvroParquetReader.builder[GenericRecord](parquetFilePath).build()//.asInstanceOf[ParquetReader[GenericRecord]] 
val iter = Iterator.continually(reader.read).takeWhile(_ != null) 
val list = iter.toList 
list.foreach(record => println(record)) 
} 
}

注释掉案例类代表我的文件的模式，并写信上面的代码从文件中读取的所有列。我想阅读特定的列。

来源

2017-03-05 Explorer

如果您只想读取特定列，则需要在ParquetReader构建器接受的配置上设置读取模式。（这也被称为投影）。

在你的情况，你应该能够调用.withConf(conf)在AvroParquetReader生成器类，并在您通过在conf，调用conf.set(ReadSupport.PARQUET_READ_SCHEMA, schema)其中schema是一个字符串形式的Avro架构。

来源

2017-07-14 22:10:10 monkjack

阅读来自实木复合材料的特定列而不使用Spark

回答

相关问题