parquet 第7页 - IT屋-程序员软件开发技术分享社区

从 Kafka Connect 到 S3 的 Parquet 输出

我看到 Kafka Connect 可以以 Avro 或 JSON 格式写入 S3.但是没有 Parquet 支持.添加这个会有多难? 解决方案从 Confluent 5.4.0 开始，官方支持 Parquet 输出到 S3. ..

发布时间：2021-11-12 03:27:51 apache-kafka parquet apache-kafka-connect 其他开发

从 Kafka Connect 到 S3 的 Parquet 输出

我看到 Kafka Connect 可以以 Avro 或 JSON 格式写入 S3.但是没有 Parquet 支持.添加这个会有多难? 解决方案从 Confluent 5.4.0 开始，官方支持 Parquet 输出到 S3. ..

发布时间：2021-11-12 02:45:58 apache-kafka parquet apache-kafka-connect 其他开发

如何优雅地消费多个主题时在flink中管理多个avsc文件

这是我的情况:我使用 flink 在 Kafka 中使用 SimpleStringSchema 消费许多主题.使用 OutputTag 是因为我们稍后需要将 Parquet + Snappy 中的数据按主题存储到目录中.然后我们遍历所有主题，同时使用 AVSC 模式文件处理每个主题. 现在我必须在添加一些新列时修改 avsc 架构文件.十个或一百个文件要修改，我就麻烦了. 那么有没有更 ..

发布时间：2021-11-12 01:11:15 apache-flink parquet 其他开发

在 Flink 的 DataStream API 中将 Parquet 文件作为数据流连续处理

我在 HDFS 上有一个镶木地板文件.它每天都会被一个新的覆盖.我的目标是连续发出这个镶木地板文件 - 当它改变时 - 作为使用 DataStream API 的 Flink 作业中的数据流.最终目标是在广播状态下使用文件内容，但这超出了本问题的范围. 为了连续处理文件，有一个非常有用的 API:数据源关于数据源.更具体地说，FileProcessingMode.PROCESS_CONTI ..

发布时间：2021-11-12 00:58:48 scala apache-flink parquet 其他开发

Apache Beam Java SDK SparkRunner 写入镶木地板错误

我将 Apache Beam 与 Java 结合使用.我正在尝试读取一个 csv 文件并使用本地模式在预部署的 Spark env 上使用 SparkRunner 将其写入镶木地板格式.DirectRunner 一切正常，但 SparkRunner 根本无法工作.我正在使用 maven shade 插件来构建一个胖子. 代码如下: Java: 公共类 ImportCSVToParqu ..

发布时间：2021-11-11 22:42:52 apache-beam parquet apache-beam-io 其他开发

通过 Apache Beam 使用 ParquetIO 读取和写入 Parquet 文件的示例

是否有人尝试过使用 Apache Beam 读取/写入 Parquet 文件.最近在 2.5.0 版本中添加了支持，因此文档不多. 我正在尝试读取 json 输入文件并希望写入 parquet 格式. 提前致谢. 解决方案在不同的模块中添加以下依赖为 ParquetIO. org.apache.beam;be ..

发布时间：2021-11-11 22:37:25 google-cloud-dataflow parquet apache-beam 其他开发

使用 apache 梁在镶木地板中编写 protobuf 对象

我从 google pub/sub 获取 protobuf 数据并将数据反序列化为 Message 类型对象.所以我得到 PCollection 类型的对象.这是示例代码: public class ProcessPubsubMessage extends DoFn{@ProcessElementpublic void processElement(@Element PubsubMessage ..

发布时间：2021-11-11 22:35:18 protocol-buffers parquet apache-beam 其他开发

如何在没有火花的情况下从 S3 读取 Parquet 文件?爪哇

目前，我使用 Apache ParquetReader 来读取本地镶木地板文件，看起来像这样: ParquetReader读者=空；路径 path = new Path("userdata1.parquet");尝试 {reader = AvroParquetReader.builder(path).withConf(new Configuration()).build();GenericDat ..

发布时间：2021-10-27 19:03:11 java apache-spark hadoop amazon-s3 parquet Java开发

将 Pandas 数据帧写入 s3 AWS 中的镶木地板

我想以镶木地板格式在我的 s3 存储桶中写入我的数据帧.我知道如何以 csv 格式编写数据帧.但我不知道如何以镶木地板格式书写.这是 csv 格式的代码(我不显示字段 ServerSideEncryption 和 SSEKMSKeyId 但我在实际代码中使用它们): csv_to_write = df.to_csv(None).encode()s3_client.put_object(Bucke ..

发布时间：2021-10-27 19:01:56 python pandas amazon-web-services amazon-s3 parquet Python

Parquet 数据时间戳列 INT96 尚未在 Druid Overlord Hadoop 任务中实现

上下文: 我能够将德鲁伊霸主的 MapReduce 作业提交给 EMR.我的数据源是 Parquet 格式的 S3.我在 Avroschema 不支持的镶木地板数据中有一个时间戳列 (INT96). 解析时间戳时出错问题堆栈跟踪是: 错误:java.lang.IllegalArgumentException:INT96 尚未实现.在 org.apache.parquet.av ..

发布时间：2021-10-27 18:50:40 avro emr parquet druid 其他开发

无法将有序数据写入火花中的镶木地板

我正在使用 Apache Spark 生成镶木地板文件.我可以毫无问题地按日期对它们进行分区，但在内部我似乎无法按正确的顺序排列数据. 订单似乎在处理过程中丢失了，这意味着镶木地板元数据不正确(特别是我想确保镶木地板行组反映排序顺序，以便特定于我的用例的查询可以通过元数据进行有效过滤). 考虑以下示例: //注:hbase source是hbase生成的注册临时表val 转换 = s ..

发布时间：2021-07-15 20:33:49 scala apache-spark sorting parquet 其他开发

pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的 DataFrame.to_parquet 功能将写入拆分为多个近似所需大小的文件? 我有一个非常大的 DataFrame (100M x 100)，并且正在使用 df.to_parquet('data.snappy', engine='pyarrow', compression='snappy') 写入一个文件，但这会生成一个大约 4GB 的文件.相反，我希望 ..

发布时间：2021-07-14 21:12:15 pandas save parquet pyarrow snappy Python

无法在 Pycharm 中安装 python-snappy 轮

我有一个问题这里，然后我已关注这个答案 https://stackoverflow.com/a/43756412/12375559 下载文件并从我的 Windows 提示安装，似乎python-snappy已经安装 C:\Users\xxxx\IdeaProjects\xxxx\venv>pip install python_snappy-0.5.4-cp38-cp38-win32.whl处理 ..

发布时间：2021-06-23 19:43:16 python pyspark pip pycharm parquet Python

使用 apache 梁在镶木地板中编写 protobuf 对象

我从 google pub/sub 获取 protobuf 数据并将数据反序列化为 Message 类型对象.所以我得到 PCollection 类型的对象.这是示例代码: public class ProcessPubsubMessage extends DoFn{@ProcessElementpublic void processElement(@Element PubsubMessage ..

发布时间：2021-06-14 19:24:42 protocol-buffers parquet apache-beam 其他开发

如何在s3 parquet中编写json文件

导入 json进口请求导入日期时间导入 boto3进口镶木地板进口pyarrow将熊猫导入为 pd从熊猫导入数据帧noaa_codes = ['KAST','KBDN','KCVO','KEUG','KHIO','KHRI','KMMV','KONP','KPDX','KRDM','KSLE','KSPB','KTMK','KTTD','夸']urls = [f"https://api.weat ..

发布时间：2021-06-14 19:24:39 python python-3.x pandas parquet pyarrow Python

python parquet 安装在带有 snappy 和 thiftpy 的 macos 上失败

我对 python 比较陌生.我需要一种具有适度磁盘要求的快速 IO 格式.羽毛缺乏压缩，所以它是实木复合地板.我尝试安装 sudo pip3 install parquet 在 macos 10.14.6、Python 3.7.4、pip 19.1.1 上. 第一组错误与 snappy 相关.它们可以通过 brew install snappy 和 sudo pip3 install ..

发布时间：2021-06-14 19:24:36 python parquet Python

用 Parquet 编写数据框

我正在尝试在 spark 中读取 json 并将其写回为镶木地板.我在 Windows 中运行我的代码.下面是我的代码.执行后，它会创建一个名为 output_spark.parquet 的文件夹.它还会引发找不到文件的错误.如果我创建一个文件然后运行代码，它会说该文件已经存在.这是我得到的错误. py4j.protocol.Py4JJavaError: 调用时发生错误o34.实木复合地板. ..

发布时间：2021-06-14 19:24:32 python dataframe pyspark parquet Python

在 Spark 中读取分区镶木地板

我有一个如下所示的暂存数据目录，我希望能够将 2018 年和 2019 年的数据读入一个数据帧，而无需分别读取和合并. 据我所知，我应该能够将 car_data 目录提供给 spark 并应用一个过滤器，哪个 spark 会向下推?当我尝试执行此操作时，它说无法推断架构，因此必须手动定义它. 注意:我需要在不将年份文件夹的名称更改为 year=2018 的情况下执行此操作如何为 ..

发布时间：2021-06-14 19:24:29 apache-spark pyspark apache-spark-sql parquet 其他开发

使用 pyarrow/parquet-cpp 重新分区 parquet-mr 生成的镶木地板会使文件大小增加 x30?

使用 AWS Firehose，我将传入的记录转换为镶木地板.在一个例子中，我有 150k 条相同的记录进入 firehose，一个 30kb 的镶木地板被写入 s3.由于 firehose 对数据进行分区的方式，我们有一个辅助进程(由 s3 put 事件触发的 lambda)在 parquet 中读取并根据事件本身中的日期对其进行重新分区.经过这个重新分区过程，30kb 的文件大小跃升至 900 ..

发布时间：2021-06-14 19:24:26 pandas parquet amazon-kinesis-firehose pyarrow Python

如何使用 python (pyspark) 中的 spark 数据帧从 AWS S3 读取镶木地板文件

我正在尝试读取存储在 s3 存储桶中的一些镶木地板文件.我正在使用以下代码: s3 = boto3.resource('s3')# 获取保存文件的存储桶的句柄bucket = s3.Bucket('bucket_name')# 获取你想要的对象的句柄(即你的文件)obj = bucket.Object(key = '文件/密钥/083b661babc54dd89139449d15fa22dd.s ..

发布时间：2021-06-14 19:24:23 python amazon-web-services amazon-s3 pyspark parquet Python

parquet相关内容