fastparquet

1热度

1回答

我有一个hive格式和快速压缩的parquet文件。它适合内存，pandas.info提供以下数据。在拼花文件每组的行数仅仅是100K >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+dfVQvrBVGO8j1mfqe4ZHc= to oE4y

4热度

2回答

如何使用Python中的pyarrow从S3中读取分区的实木复合地址文件

我正在寻找使用python从s3中读取多个分区目录中的数据的方法。 data_folder/SERIAL_NUMBER = 1/cur_date = 20-12-2012/abcdsd0324324.snappy.parquet data_folder/SERIAL_NUMBER = 2/cur_date = 27-12-2012/asdsdfsd0324324.snappy.parquet py

11热度

1回答

是否可以将巨大的数据帧保存到实木复合地板中？

我有一个由100,000+行组成的数据框，每行有100,000列，总计为10,000,000,000浮点值。我已经成功在csv（制表符分隔）文件中读取他们以前和我他们成功读取到50个核至强机250GB RAM，并尝试写出来作为.parq目录，例如： huge.csv中的花车被保存为字符串，它是125GB。 import dask.dataframe as dd filename = 'huge

3热度

1回答

生成镶木地板文件 - R和Python之间的差异

我们在Dask（Python）和Drill（使用Sergeant数据包的R）中生成parquet文件。我们已经注意到了一些问题：的Dask（即fastparquet）的格式具有_metadata和_common_metadata文件而parquet文件中R \ Drill没有这些文件，并有parquet.crc文件，而不是（可删除）。这些parquet实现之间有什么区别？

2热度

2回答

我如何从DASK/fastparquet

多个目录中读取多个拼花文件（同模式）需要使用DASK用相同的架构多拼花文件加载到一个单一的数据帧。当它们全都在同一个目录中时，这种方式起作用，但当它们位于不同的目录中时不起作用。例如： import fastparquet pfile = fastparquet.ParquetFile(['data/data1.parq', 'data/data2.parq']) 作品就好了，但如果我复制