fastparquet相关内容

将数据从数据库移至Azure Blob存储

我可以使用 dask.dataframe .read_sql_table 读取数据,例如df = dd.read_sql_table(table='TABLE', uri=uri, index_col='field', npartitions=N) 将其保存为Azure Blob存储中的拼花文件的下一步(最佳)是什么? 根据我的小型研究,有两种选择: 本地保存并使用 https: ..
发布时间:2020-07-22 21:36:13 其他开发

流实木复合地板文件python和仅向下采样

我有实木复合地板格式的数据,太大而无法放入内存(6 GB).我正在寻找一种使用Python 3.6读取和处理文件的方法.有没有一种方法可以流式传输文件,缩减采样并保存到dataframe?最终,我希望使用dataframe格式的数据. 我在不使用Spark框架的情况下尝试这样做是错误的吗? 我尝试使用pyarrow和fastparquet,但是在尝试读取整个文件时遇到内存错误. 任何提 ..
发布时间:2020-07-22 21:35:03 其他开发