fastparquet

    1热度

    1回答

    我有一个hive格式和快速压缩的parquet文件。它适合内存,pandas.info提供以下数据。 在拼花文件每组的行数仅仅是100K >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+dfVQvrBVGO8j1mfqe4ZHc= to oE4y

    4热度

    2回答

    我正在寻找使用python从s3中读取多个分区目录中的数据的方法。 data_folder/SERIAL_NUMBER = 1/cur_date = 20-12-2012/abcdsd0324324.snappy.parquet data_folder/SERIAL_NUMBER = 2/cur_date = 27-12-2012/asdsdfsd0324324.snappy.parquet py

    11热度

    1回答

    我有一个由100,000+行组成的数据框,每行有100,000列,总计为10,000,000,000浮点值。 我已经成功在csv(制表符分隔)文件中读取他们以前和我他们成功读取到50个核至强机250GB RAM,并尝试写出来作为.parq目录,例如: huge.csv中的花车被保存为字符串,它是125GB。 import dask.dataframe as dd filename = 'huge

    3热度

    1回答

    我们在Dask(Python)和Drill(使用Sergeant数据包的R)中生成parquet文件。我们已经注意到了一些问题: 的Dask(即fastparquet)的格式具有_metadata和_common_metadata文件而parquet文件中R \ Drill没有这些文件,并有parquet.crc文件,而不是(可删除)。这些parquet实现之间有什么区别?

    2热度

    2回答

    多个目录中读取多个拼花文件(同模式)需要使用DASK用相同的架构多拼花文件加载到一个单一的数据帧。当它们全都在同一个目录中时,这种方式起作用,但当它们位于不同的目录中时不起作用。 例如: import fastparquet pfile = fastparquet.ParquetFile(['data/data1.parq', 'data/data2.parq']) 作品就好了,但如果我复制