parquet相关内容

如何使用纯 Java(包括日期和十进制类型)生成 Parquet 文件并上传到 S3 [Windows](无 HDFS)

我最近有一个需求,我需要生成可由 Apache Spark 仅使用 Java 读取的 Parquet 文件(不使用其他软件安装,例如:Apache Drill、Hive、Spark 等).文件需要保存到 S3,因此我将分享有关如何执行这两项操作的详细信息. 没有关于如何执行此操作的简单指南.我也不是 Java 程序员,所以使用 Maven、Hadoop 等的概念对我来说都是陌生的.所以我花了 ..
发布时间:2021-12-15 19:52:52 Java开发

Parquet 谓词下推是否适用于使用 Spark 非 EMR 的 S3?

只是想知道 Parquet 谓词下推是否也适用于 S3,而不仅仅是 HDFS.特别是如果我们使用 Spark(非 EMR). 进一步的解释可能会有所帮助,因为它可能涉及对分布式文件系统的理解. 解决方案 是的.过滤器下推不依赖于底层文件系统.它只取决于 spark.sql.parquet.filterPushdown 和过滤器的类型(并非所有过滤器都可以下推). 见 https ..
发布时间:2021-12-15 19:52:07 其他开发

使用 Java 将 Json 对象转换为 Parquet 格式而不转换为 AVRO(不使用 Spark、Hive、Pig、Impala)

我有一个场景,其中使用 Java 将作为 Json 对象存在的消息转换为 Apache Parquet 格式.任何示例代码或示例都会有所帮助.就我发现的将消息转换为 Parquet 而言,正在使用 Hive、Pig、Spark.我需要转换为 Parquet,而无需仅通过 Java 涉及这些. 解决方案 要将 JSON 数据文件转换为 Parquet,您需要一些内存表示.Parquet 没有 ..
发布时间:2021-12-15 19:04:13 Java开发

您如何在 aws us-east-2 上使用带有 spark 2.1.0 的 s3a?

背景 我一直致力于为自己获得一个灵活的设置,以便在 docker swarm 模式下在 aws 上使用 spark.我一直在使用的 docker 镜像配置为使用最新的 spark,当时是 2.1.0 和 Hadoop 2.7.3,可在 jupyter/pyspark-notebook. 这是有效的,我一直在测试我计划使用的各种连接路径.我遇到的问题是与 s3 交互的正确方式的不确定性. ..
发布时间:2021-12-15 18:59:29 其他开发

镶木地板格式的架构演变

目前我们在生产中使用 Avro 数据格式.在使用 Avro 的几个优点中,我们知道它在模式演化方面的优势. 现在我们正在评估 Parquet 格式,因为它在读取随机列时的效率.所以在继续之前,我们关心的仍然是架构演变. 有谁知道在镶木地板中是否可以进行模式演变,如果是,如何是可能的,如果不是,则为什么不可以. 一些 资源 声称这是可能的,但它只能在末尾添加列. 这是什么意思 ..
发布时间:2021-12-15 18:47:47 其他开发

Avro 与 Parquet

我打算在我的 hadoop 相关项目中使用一种 hadoop 文件格式.我理解对于基于列的查询和 avro 进行全面扫描或当我们需要所有列数据时,parquet 是有效的! 在我继续并选择其中一种文件格式之前,我想了解一种相对于另一种的缺点/缺点.谁能用简单的语言给我解释一下? 解决方案 如果您还没有决定,我会继续为您的数据编写 Avro 模式.完成后,在 Avro 容器文件和 Pa ..
发布时间:2021-12-15 18:46:50 其他开发

与其他格式相比,镶木地板格式的优缺点是什么?

Apache Parquet 的特点是: 自我描述 列格式 独立于语言 与 Avro、序列文件、RC 文件等相比.我想了解一下这些格式.我已经阅读了:Impala 如何使用 Hadoop 文件格式 ,它提供了一些关于格式的见解,但我想知道如何访问数据 &数据的存储以这些格式中的每一种完成.镶木地板比其他地板有什么优势? 解决方案 我认为我可以描述的主要区别与面向记录的格式与 ..
发布时间:2021-12-15 18:32:04 其他开发

Firehose JSON ->S3 实木复合地板 ->ETL Spark,错误:无法推断 Parquet 的架构

看起来这应该很容易,就像它是这组功能的核心用例一样,但它却是一个接一个的问题. 最新的尝试是通过 Glue Dev 端点(PySpark 和 Scala 端点)运行命令. 按照此处的说明操作:https://docs.aws.amazon.com/glue/latest/dg/dev-endpoint-tutorial-repl.html 导入系统从 pyspark.context ..
发布时间:2021-11-27 10:24:15 其他开发

AWS 粘合作业将字符串映射到日期和时间格式,同时从 csv 转换为镶木地板

在从 csv 转换为 parquet 时,使用 AWS 胶水 ETL 作业跟随 csv 中的映射字段读取为字符串到日期和时间类型.这是实际的 csv 文件 映射和转换后,日期字段为空,时间与今天的日期连接 如何以正确的日期和时间格式进行转换? 解决方案 它使用 presto 数据类型,因此数据应该采用正确的格式 DATE 日历日期(年、月、日). 示例:日期'200 ..
发布时间:2021-11-27 08:53:15 其他开发

将新数据附加到分区的镶木地板文件

我正在编写一个 ETL 过程,我需要在其中读取每小时的日志文件、对数据进行分区并进行保存.我正在使用 Spark(在 Databricks 中).日志文件是 CSV,所以我读取它们并应用模式,然后执行我的转换. 我的问题是,如何将每小时的数据保存为镶木地板格式但附加到现有数据集?保存时,我需要按数据框中存在的 4 列进行分区. 这是我的保存行: 数据.filter(validPart ..
发布时间:2021-11-16 19:32:37 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:31:34 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常, 线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..
发布时间:2021-11-14 23:30:16 其他开发

Spark Sql - 插入外部 Hive 表错误

我正在尝试通过 spark sql 将数据插入到外部配置单元表中.我的蜂巢表是通过一列存储的.创建外部配置单元表的查询是这样的 create external table tab1 (col1 type,col2 type,col3 type) 由 (col1,col2) 聚类并由 (col1) 排序成 8 个存储为 parquet 的桶 现在我尝试将 Parquet 文件(存储在 hdfs ..
发布时间:2021-11-14 23:28:26 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常, 线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..
发布时间:2021-11-14 23:26:51 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:25:50 其他开发