parquet相关内容

如何优雅地消费多个主题时在flink中管理多个avsc文件

这是我的情况:我使用 flink 在 Kafka 中使用 SimpleStringSchema 消费许多主题.使用 OutputTag 是因为我们稍后需要将 Parquet + Snappy 中的数据按主题存储到目录中.然后我们遍历所有主题,同时使用 AVSC 模式文件处理每个主题. 现在我必须在添加一些新列时修改 avsc 架构文件.十个或一百个文件要修改,我就麻烦了. 那么有没有更 ..
发布时间:2021-11-12 01:11:15 其他开发

在 Flink 的 DataStream API 中将 Parquet 文件作为数据流连续处理

我在 HDFS 上有一个镶木地板文件.它每天都会被一个新的覆盖.我的目标是连续发出这个镶木地板文件 - 当它改变时 - 作为使用 DataStream API 的 Flink 作业中的数据流.最终目标是在广播状态下使用文件内容,但这超出了本问题的范围. 为了连续处理文件,有一个非常有用的 API:数据源 关于数据源.更具体地说,FileProcessingMode.PROCESS_CONTI ..
发布时间:2021-11-12 00:58:48 其他开发

将 Pandas 数据帧写入 s3 AWS 中的镶木地板

我想以镶木地板格式在我的 s3 存储桶中写入我的数据帧.我知道如何以 csv 格式编写数据帧.但我不知道如何以镶木地板格式书写.这是 csv 格式的代码(我不显示字段 ServerSideEncryption 和 SSEKMSKeyId 但我在实际代码中使用它们): csv_to_write = df.to_csv(None).encode()s3_client.put_object(Bucke ..
发布时间:2021-10-27 19:01:56 Python

无法将有序数据写入火花中的镶木地板

我正在使用 Apache Spark 生成镶木地板文件.我可以毫无问题地按日期对它们进行分区,但在内部我似乎无法按正确的顺序排列数据. 订单似乎在处理过程中丢失了,这意味着镶木地板元数据不正确(特别是我想确保镶木地板行组反映排序顺序,以便特定于我的用例的查询可以通过元数据进行有效过滤). 考虑以下示例: //注:hbase source是hbase生成的注册临时表val 转换 = s ..
发布时间:2021-07-15 20:33:49 其他开发

pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的 DataFrame.to_parquet 功能将写入拆分为多个近似所需大小的文件? 我有一个非常大的 DataFrame (100M x 100),并且正在使用 df.to_parquet('data.snappy', engine='pyarrow', compression='snappy') 写入一个文件,但这会生成一个大约 4GB 的文件.相反,我希望 ..
发布时间:2021-07-14 21:12:15 Python

无法在 Pycharm 中安装 python-snappy 轮

我有一个问题这里,然后我已关注这个答案 https://stackoverflow.com/a/43756412/12375559 下载文件并从我的 Windows 提示安装,似乎python-snappy已经安装 C:\Users\xxxx\IdeaProjects\xxxx\venv>pip install python_snappy-0.5.4-cp38-cp38-win32.whl处理 ..
发布时间:2021-06-23 19:43:16 Python

如何在s3 parquet中编写json文件

导入 json进口请求导入日期时间导入 boto3进口镶木地板进口pyarrow将熊猫导入为 pd从熊猫导入数据帧noaa_codes = ['KAST','KBDN','KCVO','KEUG','KHIO','KHRI','KMMV','KONP','KPDX','KRDM','KSLE','KSPB','KTMK','KTTD','夸']urls = [f"https://api.weat ..
发布时间:2021-06-14 19:24:39 Python

python parquet 安装在带有 snappy 和 thiftpy 的 macos 上失败

我对 python 比较陌生.我需要一种具有适度磁盘要求的快速 IO 格式.羽毛缺乏压缩,所以它是实木复合地板.我尝试安装 sudo pip3 install parquet 在 macos 10.14.6、Python 3.7.4、pip 19.1.1 上. 第一组错误与 snappy 相关.它们可以通过 brew install snappy 和 sudo pip3 install ..
发布时间:2021-06-14 19:24:36 Python

用 Parquet 编写数据框

我正在尝试在 spark 中读取 json 并将其写回为镶木地板.我在 Windows 中运行我的代码.下面是我的代码.执行后,它会创建一个名为 output_spark.parquet 的文件夹.它还会引发找不到文件的错误.如果我创建一个文件然后运行代码,它会说该文件已经存在.这是我得到的错误. py4j.protocol.Py4JJavaError: 调用时发生错误o34.实木复合地板. ..
发布时间:2021-06-14 19:24:32 Python

在 Spark 中读取分区镶木地板

我有一个如下所示的暂存数据目录,我希望能够将 2018 年和 2019 年的数据读入一个数据帧,而无需分别读取和合并. 据我所知,我应该能够将 car_data 目录提供给 spark 并应用一个过滤器,哪个 spark 会向下推?当我尝试执行此操作时,它说无法推断架构,因此必须手动定义它. 注意:我需要在不将年份文件夹的名称更改为 year=2018 的情况下执行此操作 如何为 ..
发布时间:2021-06-14 19:24:29 其他开发

使用 pyarrow/parquet-cpp 重新分区 parquet-mr 生成的镶木地板会使文件大小增加 x30?

使用 AWS Firehose,我将传入的记录转换为镶木地板.在一个例子中,我有 150k 条相同的记录进入 firehose,一个 30kb 的镶木地板被写入 s3.由于 firehose 对数据进行分区的方式,我们有一个辅助进程(由 s3 put 事件触发的 lambda)在 parquet 中读取并根据事件本身中的日期对其进行重新分区.经过这个重新分区过程,30kb 的文件大小跃升至 900 ..
发布时间:2021-06-14 19:24:26 Python

如何使用 python (pyspark) 中的 spark 数据帧从 AWS S3 读取镶木地板文件

我正在尝试读取存储在 s3 存储桶中的一些镶木地板文件.我正在使用以下代码: s3 = boto3.resource('s3')# 获取保存文件的存储桶的句柄bucket = s3.Bucket('bucket_name')# 获取你想要的对象的句柄(即你的文件)obj = bucket.Object(key = '文件/密钥/083b661babc54dd89139449d15fa22dd.s ..
发布时间:2021-06-14 19:24:23 Python