fastparquet - IT屋-程序员软件开发技术分享社区

读取大量的实木复合地板文件:read_parquet与from_delayed

我正在将大量(100s至1000s)实木复合地板文件读入单个dask数据帧(单机，全部本地).我意识到 files = ['file1.parq'，'file2.parq'，...]ddf = dd.read_parquet(files，engine ='fastparquet')ddf.groupby(['col_A'，'col_B']).value.sum().compute() 的效 ..

将数据从数据库移至Azure Blob存储

我可以使用 dask.dataframe .read_sql_table 读取数据，例如df = dd.read_sql_table(table='TABLE', uri=uri, index_col='field', npartitions=N) 将其保存为Azure Blob存储中的拼花文件的下一步(最佳)是什么? 根据我的小型研究，有两种选择: 本地保存并使用 https: ..

发布时间：2020-07-22 21:36:13 azure dask fastparquet intake 其他开发

生成实木复合地板文件-R和Python之间的区别

我们已经在Dask(Python)和Drill中生成了一个parquet文件(R使用Sergeant数据包).我们注意到了一些问题: Dask(即fastparquet)的格式具有_metadata和_common_metadata文件，而R \ Drill中的parquet文件没有这些文件，而具有parquet.crc文件(可以删除).这些parquet实现之间有什么区别? 解决方案 ..

发布时间：2020-07-22 21:36:11 r parquet dask apache-drill fastparquet 其他开发

流实木复合地板文件python和仅向下采样

我有实木复合地板格式的数据，太大而无法放入内存(6 GB).我正在寻找一种使用Python 3.6读取和处理文件的方法.有没有一种方法可以流式传输文件，缩减采样并保存到dataframe?最终，我希望使用dataframe格式的数据. 我在不使用Spark框架的情况下尝试这样做是错误的吗? 我尝试使用pyarrow和fastparquet，但是在尝试读取整个文件时遇到内存错误. 任何提 ..

发布时间：2020-07-22 21:35:03 python-3.x parquet pyarrow fastparquet 其他开发

使用dask read_parquet方法过滤会产生不需要的结果

我正在尝试使用dask read_parquet方法和filters kwarg读取镶木地板文件.但是有时它不会根据给定的条件进行过滤. 示例: dates列创建和保存数据框 import pandas as pd import numpy as np import dask.dataframe as dd nums = range(1,6) dates = pd.date_ran ..

发布时间：2020-07-22 21:35:01 python dataframe filtering dask fastparquet Python

如何在python中使用pyarrow从S3读取分区实木复合地板文件

我正在寻找使用python从s3的多个分区目录中读取数据的方法. data_folder/serial_number = 1/cur_date = 20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number = 2/cur_date = 27-12-2012/asdsdfsd0324324.snappy.parquet ..

发布时间：2020-07-22 21:34:59 python parquet fastparquet arrow-python python-s3fs Python

在python中导入fastparquet时出现snappy错误

我已在EC2服务器中安装了以下模块，该服务器已经具有python(3.6)&安装了anaconda: 贪婪金字塔 s3fs fastparquet 除了fastparquet以外，其他所有东西都可以导入.当我尝试导入fastparquet时，它将引发以下错误: [username@ip8 ~]$ conda -V conda 4.2.13 [username@ip-~]$ ..

发布时间：2020-07-07 05:27:05 python anaconda conda snappy fastparquet Python

减压'SNAPPY'不适用于fastparquet

我正在尝试使用fastparquet打开文件，但出现错误: RuntimeError: Decompression 'SNAPPY' not available. Options: ['GZIP', 'UNCOMPRESSED'] 我已经安装了以下软件，并重新启动了我的解释器: python 3.6.5 hc3d ..

发布时间：2020-07-07 05:26:02 python-3.x snappy fastparquet 其他开发

fastparquet相关内容