2017-06-29 123 views
1

我是SnappyData的新手,我试图将大量数据导入到它中。因此,数据是从不同的来源创建的,并作为csv文件存储在每个位置的zip文件中。可以说,拉链的结构是zip1,zip2 ... zipn,每个zip包含完全相同的(header.csv,detail1.csv,detail2.csv,... detail15.csv)每个.csv具有相同的结构,这意味着zip1中的detail5.csv与zipn中的detail5.csv具有相同的列。所以我的问题是如何自动输入?是否有这样一组数据的导入命令?第一次很容易,因为我使用创建外部表,但我如何导入其余的idata?或者,更好的办法是,如何将所有数据导入列(因为我们有很多数据)或行(因为我们可以根据它所来自的位置来划分数据)表?SnappyData将多个csv文件中的数据导入到列表或行表中

+0

并行读取我将尽快为您解答 – plambre

回答

0

导入CSV的最快方法是在DataframeReader中对CSV使用内置的火花支持。 Afaik,不支持您需要的定制级别。但是,您可以轻松地运行快速工作来选择具有相同架构的这些存档文件中的文件,并使用org.apache.spark.sql.DataFrameReader.csv

相关问题