pyarrow相关内容

使用S3文件系统时,PYARROW会覆盖数据集

将两个地块文件本地写入数据集时,Arrow能够适当地附加到分区。例如,如果我使用逐列箭头对两个文件进行分区,当我使用分区编写第一个地块文件时,ARROW会生成一个文件结构,其中的子文件夹对应于A列中的每个唯一值。当写入第二个文件时,ARROW足够智能,可以将数据写入正确的分区。因此,如果A列中的文件一和两个共享的公共值,我在子文件夹中看到具有公共值的两个单独的文件。代码示例: df = pd ..
发布时间:2022-07-19 22:46:25 其他开发

从Python增量写入拼图数据集

我正在从我的Python应用程序中写出一个比RAM更大的数据--基本上是将数据从SQLAlChemy转储到Parque。我的解决方案的灵感来自this question。尽管增加了the batch size as hinted here,但我面临的问题是: 内存使用量急剧增加 编写器在一段时间后开始减速(写入吞吐量速度下降5倍以上) 我的假设是,这是因为ParquetWrite ..
发布时间:2022-05-11 22:53:02 其他开发

从pyarrow.Table转换为Pandas时处理大时间戳

我有一个时间戳9999-12-31 23:59:59作为int96存储在拼图文件中。我使用pyarrow.DataSet读取此拼图文件,并将结果表转换为 pandas 数据帧(使用pyarrow.Table.to_pandas())。转换为Pandas DataFrame会将我的时间戳转换为1816-03-30 05:56:07.066277376(Pandas时间戳的有效日期范围可能较小),而不 ..
发布时间:2022-05-11 22:22:30 Python

如何读取箭木地板键值元数据?

当我在R和Python中保存拼图文件时(使用pyrow),我得到一个保存在元数据中的箭头架构字符串。 如何读取元数据?它是平面缓冲区编码的数据吗?架构的定义在哪里?它未列在Arrow文档站点上。 元数据是如下所示的键-值对 key: "ARROW:schema" value: "/////5AAAAAQAAAAAAAKAAwABgAFAAgACgAAAAABAwAEAAAAyP ..
发布时间:2022-05-11 21:48:30 其他开发

import pyarrow not working <- 错误是“ValueError: The pyarrow library is not installed, please install pyarrow to use the to_arrow() function.";

我尝试在终端和 juypter 实验室中安装它,它说它已成功安装,但是当我运行 df = query_job.to_dataframe() 时,我不断收到错误“;ValueError: pyarrow 库未安装,请安装 pyarrow 以使用 to_arrow() 函数.".我不知道如何解决这个问题.有什么建议吗?我试图最终使用代码从谷歌数据工作室访问数据, from google.cloud ..
发布时间:2021-12-30 23:18:20 其他开发

使用 pandas_udf 和 Parquet 序列化时内存泄漏?

我目前正在使用 PySpark 开发我的第一个完整系统,但我遇到了一些奇怪的内存相关问题.在其中一个阶段,我想类似于 Split-Apply-Combine 策略以修改 DataFrame.也就是说,我想对给定列定义的每个组应用一个函数,最后将它们全部组合起来.问题是,我想应用的函数是一个拟合模型的预测方法,它“说出"了 Pandas 习语,即它被向量化并以 Pandas 系列作为输入. 然 ..
发布时间:2021-11-14 22:19:21 Python

pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的 DataFrame.to_parquet 功能将写入拆分为多个近似所需大小的文件? 我有一个非常大的 DataFrame (100M x 100),并且正在使用 df.to_parquet('data.snappy', engine='pyarrow', compression='snappy') 写入一个文件,但这会生成一个大约 4GB 的文件.相反,我希望 ..
发布时间:2021-07-14 21:12:15 Python

如何在s3 parquet中编写json文件

导入 json进口请求导入日期时间导入 boto3进口镶木地板进口pyarrow将熊猫导入为 pd从熊猫导入数据帧noaa_codes = ['KAST','KBDN','KCVO','KEUG','KHIO','KHRI','KMMV','KONP','KPDX','KRDM','KSLE','KSPB','KTMK','KTTD','夸']urls = [f"https://api.weat ..
发布时间:2021-06-14 19:24:39 Python

使用 pyarrow/parquet-cpp 重新分区 parquet-mr 生成的镶木地板会使文件大小增加 x30?

使用 AWS Firehose,我将传入的记录转换为镶木地板.在一个例子中,我有 150k 条相同的记录进入 firehose,一个 30kb 的镶木地板被写入 s3.由于 firehose 对数据进行分区的方式,我们有一个辅助进程(由 s3 put 事件触发的 lambda)在 parquet 中读取并根据事件本身中的日期对其进行重新分区.经过这个重新分区过程,30kb 的文件大小跃升至 900 ..
发布时间:2021-06-14 19:24:26 Python

Apache-Drill 不理解 Pandas datetime64[ns]

我正在使用 Pyarrow、Pyarrow.Parquet 以及 Pandas.当我将 Pandas datetime64[ns] 系列发送到 Parquet 文件并通过钻取查询再次加载它时,查询显示一个整数,如:1467331200000000,这似乎不是 UNIX 时间戳. 查询如下所示: SELECT workspace.id-column AS id-column,worksp ..
发布时间:2021-06-14 19:23:53 Python

具有字典列表的列的pyarrow数据类型?

当我保存到镶木地板文件时,是否应该为包含字典列表的列使用特殊的 pyarrow 数据类型? 如果我将列表或字典列表保存为字符串,我通常必须 .apply(eval) 该字段,如果我再次将其读入内存,以便熊猫将数据识别为列表(所以我可以用 pd.json_normalize 对其进行标准化) 列_a: [{“id":“something",“value":“else"},{“id":“ ..
发布时间:2021-06-14 19:23:42 Python