pyarrow - IT屋-程序员软件开发技术分享社区

使用S3文件系统时，PYARROW会覆盖数据集

将两个地块文件本地写入数据集时，Arrow能够适当地附加到分区。例如，如果我使用逐列箭头对两个文件进行分区，当我使用分区编写第一个地块文件时，ARROW会生成一个文件结构，其中的子文件夹对应于A列中的每个唯一值。当写入第二个文件时，ARROW足够智能，可以将数据写入正确的分区。因此，如果A列中的文件一和两个共享的公共值，我在子文件夹中看到具有公共值的两个单独的文件。代码示例： df = pd ..

发布时间：2022-07-19 22:46:25 parquet pyarrow 其他开发

箭/拼花错误地保存大的时间戳

我在数据库中有一些9999-12-31的时间戳，正在尝试转换为拼花。不知何故，这些时间戳在拼花文件中都以1816-03-29 05:56:08.066结束。下面是重现该问题的一些代码。 file_path = "tt.parquet" schema = pa.schema([pa.field("tt", pa.timestamp("ms"))]) table = pa.Table.f ..

发布时间：2022-06-29 22:38:40 python snowflake-cloud-data-platform parquet pyarrow Python

当写入输出文件时，帕奎特`WRITE_TABLE`会将数据类型的键引入数据

我在将数据写入拼图文件时遇到问题。我尝试了不同的pyarrow版本(2.0和3.0)，但结果看起来是一样的。我的数据外观示例： test_data = { 'dogs': [ {'dog': 'frankie'}, {'dog': 'ricky'} ] } other_test_data = { 'dogs': [ ..

发布时间：2022-05-11 23:10:26 google-bigquery parquet pyarrow 其他开发

从Python增量写入拼图数据集

我正在从我的Python应用程序中写出一个比RAM更大的数据--基本上是将数据从SQLAlChemy转储到Parque。我的解决方案的灵感来自this question。尽管增加了the batch size as hinted here，但我面临的问题是：内存使用量急剧增加编写器在一段时间后开始减速(写入吞吐量速度下降5倍以上) 我的假设是，这是因为ParquetWrite ..

发布时间：2022-05-11 22:53:02 parquet pyarrow 其他开发

无法将 pandas 数据框保存到拼图，并将浮点数列表作为单元格值

我有一个数据帧，其结构如下： Coumn1 Coumn2 0 (0.00030271668219938874, 0.0002655923890415579... (0.00164300831966102 ..

发布时间：2022-05-11 22:31:25 python pandas parquet pyarrow Python

从pyarrow.Table转换为Pandas时处理大时间戳

我有一个时间戳9999-12-31 23:59:59作为int96存储在拼图文件中。我使用pyarrow.DataSet读取此拼图文件，并将结果表转换为 pandas 数据帧(使用pyarrow.Table.to_pandas())。转换为Pandas DataFrame会将我的时间戳转换为1816-03-30 05:56:07.066277376(Pandas时间戳的有效日期范围可能较小)，而不 ..

发布时间：2022-05-11 22:22:30 python pandas timestamp parquet pyarrow Python

从用C++编写的文件中读回字段中的KeyValueMetadata和yarrow中的架构

如果我使用脚本simple-write-parquet.cpp编写一个简单的Parquet文件，我希望得到一个只有一个列的简单Parquet文件MyInt。脚本simple-write-parquet.cpp尝试使用一些伪值将KeyValueMetadata添加到字段MyInt。在C++代码中，如果我这样做， std::cout ToString(true) ..

发布时间：2022-05-11 22:03:09 parquet pyarrow apache-arrow 其他开发

为什么`Plan_Dictionary`编码的字典页偏移量为0？

镶木地板是由Spark v2.4镶木地板-MR v1.10生成的 n = 10000 x = [1.0, 2.0, 3.0, 4.0, 5.0, 5.0, None] * n y = [u'é', u'é', u'é', u'é', u'a', None, u'a'] * n z = np.random.rand(len(x)).tolist() dfs = spark.createDat ..

发布时间：2022-05-11 21:52:44 parquet arrows pyarrow parquet-mr 其他开发

如何读取箭木地板键值元数据？

当我在R和Python中保存拼图文件时(使用pyrow)，我得到一个保存在元数据中的箭头架构字符串。如何读取元数据？它是平面缓冲区编码的数据吗？架构的定义在哪里？它未列在Arrow文档站点上。元数据是如下所示的键-值对 key: "ARROW:schema" value: "/////5AAAAAQAAAAAAAKAAwABgAFAAgACgAAAAABAwAEAAAAyP ..

发布时间：2022-05-11 21:48:30 parquet pyarrow apache-arrow 其他开发

PyArrow：递增地使用ParquetWriter，而无需将整个数据集保存在内存中(大于内存拼接文件)

我正在尝试将一个较大的拼图文件写入磁盘(大于内存)。我天真地认为我可以聪明地使用ParquetWriter和WRITE_TABLE递增地写入文件，比如(POC)： import pyarrow as pa import pyarrow.parquet as pq import pickle import time arrow_schema = pickle.load(open('schem ..

发布时间：2022-05-11 21:14:05 python parquet pyarrow apache-arrow Python

import pyarrow not working <- 错误是“ValueError: The pyarrow library is not installed, please install pyarrow to use the to_arrow() function.";

我尝试在终端和 juypter 实验室中安装它，它说它已成功安装，但是当我运行 df = query_job.to_dataframe() 时，我不断收到错误“;ValueError: pyarrow 库未安装，请安装 pyarrow 以使用 to_arrow() 函数.".我不知道如何解决这个问题.有什么建议吗?我试图最终使用代码从谷歌数据工作室访问数据， from google.cloud ..

发布时间：2021-12-30 23:18:20 google-bigquery jupyter pyarrow 其他开发

如何使用 pyarrow 将 Pandas 数据帧设置/获取到 Redis

使用 dd = {'ID': ['H576','H577','H578','H600', 'H700'],'CD': ['AAAAAAA', 'BBBBB', 'CCCCCC','DDDDDD', 'EEEEEEEE']}df = pd.DataFrame(dd) Pandas 0.25 之前的版本，这在下面起作用了. set: redisConn.set("key", df.to_msgp ..

发布时间：2021-12-28 09:24:32 python pandas redis pyarrow py-redis Python

使用 pandas_udf 和 Parquet 序列化时内存泄漏?

我目前正在使用 PySpark 开发我的第一个完整系统，但我遇到了一些奇怪的内存相关问题.在其中一个阶段，我想类似于 Split-Apply-Combine 策略以修改 DataFrame.也就是说，我想对给定列定义的每个组应用一个函数，最后将它们全部组合起来.问题是，我想应用的函数是一个拟合模型的预测方法，它“说出"了 Pandas 习语，即它被向量化并以 Pandas 系列作为输入. 然 ..

发布时间：2021-11-14 22:19:21 python pandas pyspark pyspark-sql pyarrow Python

AWS EMR - ModuleNotFoundError:没有名为“pyarrow"的模块

我在使用 Apache Arrow Spark 集成时遇到了这个问题. 使用带有 Spark 2.4.3 的 AWS EMR 在本地 spark 单机实例和 Cloudera 集群上测试了这个问题，一切正常. 在 spark-env.sh 中设置这些 export PYSPARK_PYTHON=python3导出 PYSPARK_PYTHON_DRIVER=python3 在 ..

发布时间：2021-11-12 05:46:27 apache-spark pyspark amazon-emr pyarrow apache-arrow 其他开发

pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的 DataFrame.to_parquet 功能将写入拆分为多个近似所需大小的文件? 我有一个非常大的 DataFrame (100M x 100)，并且正在使用 df.to_parquet('data.snappy', engine='pyarrow', compression='snappy') 写入一个文件，但这会生成一个大约 4GB 的文件.相反，我希望 ..

发布时间：2021-07-14 21:12:15 pandas save parquet pyarrow snappy Python

如何在s3 parquet中编写json文件

导入 json进口请求导入日期时间导入 boto3进口镶木地板进口pyarrow将熊猫导入为 pd从熊猫导入数据帧noaa_codes = ['KAST','KBDN','KCVO','KEUG','KHIO','KHRI','KMMV','KONP','KPDX','KRDM','KSLE','KSPB','KTMK','KTTD','夸']urls = [f"https://api.weat ..

发布时间：2021-06-14 19:24:39 python python-3.x pandas parquet pyarrow Python

使用 pyarrow/parquet-cpp 重新分区 parquet-mr 生成的镶木地板会使文件大小增加 x30?

使用 AWS Firehose，我将传入的记录转换为镶木地板.在一个例子中，我有 150k 条相同的记录进入 firehose，一个 30kb 的镶木地板被写入 s3.由于 firehose 对数据进行分区的方式，我们有一个辅助进程(由 s3 put 事件触发的 lambda)在 parquet 中读取并根据事件本身中的日期对其进行重新分区.经过这个重新分区过程，30kb 的文件大小跃升至 900 ..

发布时间：2021-06-14 19:24:26 pandas parquet amazon-kinesis-firehose pyarrow Python

在 C++ 中读取镶木地板文件比在 python 中慢

我已经编写了使用 c++ 和 python 读取相同镶木地板文件的代码.python读取文件的时间比c++少得多，但众所周知，c++的执行速度比python快.我在这里附上了代码 - #include #include #include #include #include int main(){//...箭头::状态 st;arrow::MemoryPool* pool = ar ..

发布时间：2021-06-14 19:24:20 python c++ parquet pyarrow apache-arrow C/C++开发

Apache-Drill 不理解 Pandas datetime64[ns]

我正在使用 Pyarrow、Pyarrow.Parquet 以及 Pandas.当我将 Pandas datetime64[ns] 系列发送到 Parquet 文件并通过钻取查询再次加载它时，查询显示一个整数，如:1467331200000000，这似乎不是 UNIX 时间戳. 查询如下所示: SELECT workspace.id-column AS id-column,worksp ..

发布时间：2021-06-14 19:23:53 python parquet apache-drill pyarrow Python

具有字典列表的列的pyarrow数据类型?

当我保存到镶木地板文件时，是否应该为包含字典列表的列使用特殊的 pyarrow 数据类型? 如果我将列表或字典列表保存为字符串，我通常必须 .apply(eval) 该字段，如果我再次将其读入内存，以便熊猫将数据识别为列表(所以我可以用 pd.json_normalize 对其进行标准化) 列_a: [{“id":“something"，“value":“else"}，{“id":“ ..

发布时间：2021-06-14 19:23:42 pandas parquet pyarrow Python

pyarrow相关内容