parquet 第3页 - IT屋-程序员软件开发技术分享社区

从 AWS s3 存储桶读取拼花数据

我需要从 aws s3 读取镶木地板数据.如果我为此使用 aws sdk，我可以获得如下输入流: S3Object 对象 = s3Client.getObject(new GetObjectRequest(bucketName, bucketKey));InputStream inputStream = object.getObjectContent(); 但是 apache parquet ..

发布时间：2021-12-15 20:27:14 java amazon-web-services amazon-s3 parquet Java开发

如何更改 _spark_metadata 目录的位置?

我使用 Spark Structured Streaming 的流式查询使用以下代码将 Parquet 文件写入 S3: ds.writeStream().format("parquet").outputMode(OutputMode.Append()).option("queryName", "myStreamingQuery").option("checkpointLocation", "s ..

发布时间：2021-12-15 20:05:54 apache-spark amazon-s3 parquet spark-structured-streaming 其他开发

如何使用纯 Java(包括日期和十进制类型)生成 Parquet 文件并上传到 S3 [Windows](无 HDFS)

我最近有一个需求，我需要生成可由 Apache Spark 仅使用 Java 读取的 Parquet 文件(不使用其他软件安装，例如:Apache Drill、Hive、Spark 等).文件需要保存到 S3，因此我将分享有关如何执行这两项操作的详细信息. 没有关于如何执行此操作的简单指南.我也不是 Java 程序员，所以使用 Maven、Hadoop 等的概念对我来说都是陌生的.所以我花了 ..

发布时间：2021-12-15 19:52:52 java apache-spark amazon-s3 avro parquet Java开发

Parquet 谓词下推是否适用于使用 Spark 非 EMR 的 S3?

只是想知道 Parquet 谓词下推是否也适用于 S3，而不仅仅是 HDFS.特别是如果我们使用 Spark(非 EMR). 进一步的解释可能会有所帮助，因为它可能涉及对分布式文件系统的理解. 解决方案是的.过滤器下推不依赖于底层文件系统.它只取决于 spark.sql.parquet.filterPushdown 和过滤器的类型(并非所有过滤器都可以下推). 见 https ..

发布时间：2021-12-15 19:52:07 amazon-s3 apache-spark parquet 其他开发

Spark 是否支持使用 Parquet 文件进行分区修剪

我正在处理一个大型数据集，该数据集由两列分区 - plant_name 和 tag_id.第二个分区 - tag_id 有 200000 个唯一值，我主要通过特定的 tag_id 值访问数据.如果我使用以下 Spark 命令: sqlContext.setConf("spark.sql.hive.metastorePartitionPruning", "true")sqlContext.setC ..

发布时间：2021-12-15 19:51:27 apache-spark amazon-s3 hive parquet 其他开发

使用 Java 将 Json 对象转换为 Parquet 格式而不转换为 AVRO(不使用 Spark、Hive、Pig、Impala)

我有一个场景，其中使用 Java 将作为 Json 对象存在的消息转换为 Apache Parquet 格式.任何示例代码或示例都会有所帮助.就我发现的将消息转换为 Parquet 而言，正在使用 Hive、Pig、Spark.我需要转换为 Parquet，而无需仅通过 Java 涉及这些. 解决方案要将 JSON 数据文件转换为 Parquet，您需要一些内存表示.Parquet 没有 ..

发布时间：2021-12-15 19:04:13 java json hadoop parquet Java开发

您如何在 aws us-east-2 上使用带有 spark 2.1.0 的 s3a?

背景我一直致力于为自己获得一个灵活的设置，以便在 docker swarm 模式下在 aws 上使用 spark.我一直在使用的 docker 镜像配置为使用最新的 spark，当时是 2.1.0 和 Hadoop 2.7.3，可在 jupyter/pyspark-notebook. 这是有效的，我一直在测试我计划使用的各种连接路径.我遇到的问题是与 s3 交互的正确方式的不确定性. ..

发布时间：2021-12-15 18:59:29 hadoop apache-spark amazon-s3 pyspark parquet 其他开发

如何将数据附加到现有的镶木地板文件

我正在使用以下代码创建 ParquetWriter 并向其写入记录. ParquetWriterparquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);最终的 GenericRecord 记录 = 新的 GenericData.Record( ..

发布时间：2021-12-15 18:56:17 java hadoop parquet Java开发

镶木地板格式的架构演变

目前我们在生产中使用 Avro 数据格式.在使用 Avro 的几个优点中，我们知道它在模式演化方面的优势. 现在我们正在评估 Parquet 格式，因为它在读取随机列时的效率.所以在继续之前，我们关心的仍然是架构演变. 有谁知道在镶木地板中是否可以进行模式演变，如果是，如何是可能的，如果不是，则为什么不可以. 一些资源声称这是可能的，但它只能在末尾添加列. 这是什么意思 ..

发布时间：2021-12-15 18:47:47 apache-spark hadoop data-warehouse avro parquet 其他开发

Avro 与 Parquet

我打算在我的 hadoop 相关项目中使用一种 hadoop 文件格式.我理解对于基于列的查询和 avro 进行全面扫描或当我们需要所有列数据时，parquet 是有效的！在我继续并选择其中一种文件格式之前，我想了解一种相对于另一种的缺点/缺点.谁能用简单的语言给我解释一下? 解决方案如果您还没有决定，我会继续为您的数据编写 Avro 模式.完成后，在 Avro 容器文件和 Pa ..

发布时间：2021-12-15 18:46:50 hadoop avro parquet 其他开发

与其他格式相比，镶木地板格式的优缺点是什么?

Apache Parquet 的特点是: 自我描述列格式独立于语言与 Avro、序列文件、RC 文件等相比.我想了解一下这些格式.我已经阅读了:Impala 如何使用 Hadoop 文件格式，它提供了一些关于格式的见解，但我想知道如何访问数据 &数据的存储以这些格式中的每一种完成.镶木地板比其他地板有什么优势? 解决方案我认为我可以描述的主要区别与面向记录的格式与 ..

发布时间：2021-12-15 18:32:04 file hadoop hdfs avro parquet 其他开发

Firehose JSON ->S3 实木复合地板 ->ETL Spark，错误:无法推断 Parquet 的架构

看起来这应该很容易，就像它是这组功能的核心用例一样，但它却是一个接一个的问题. 最新的尝试是通过 Glue Dev 端点(PySpark 和 Scala 端点)运行命令. 按照此处的说明操作:https://docs.aws.amazon.com/glue/latest/dg/dev-endpoint-tutorial-repl.html 导入系统从 pyspark.context ..

发布时间：2021-11-27 10:24:15 apache-spark pyspark parquet amazon-kinesis aws-glue 其他开发

AWS 粘合作业将字符串映射到日期和时间格式，同时从 csv 转换为镶木地板

在从 csv 转换为 parquet 时，使用 AWS 胶水 ETL 作业跟随 csv 中的映射字段读取为字符串到日期和时间类型.这是实际的 csv 文件映射和转换后，日期字段为空，时间与今天的日期连接如何以正确的日期和时间格式进行转换? 解决方案它使用 presto 数据类型，因此数据应该采用正确的格式 DATE 日历日期(年、月、日). 示例:日期'200 ..

发布时间：2021-11-27 08:53:15 pyspark parquet aws-glue amazon-athena 其他开发

将新数据附加到分区的镶木地板文件

我正在编写一个 ETL 过程，我需要在其中读取每小时的日志文件、对数据进行分区并进行保存.我正在使用 Spark(在 Databricks 中).日志文件是 CSV，所以我读取它们并应用模式，然后执行我的转换. 我的问题是，如何将每小时的数据保存为镶木地板格式但附加到现有数据集?保存时，我需要按数据框中存在的 4 列进行分区. 这是我的保存行: 数据.filter(validPart ..

发布时间：2021-11-16 19:32:37 scala apache-spark append parquet 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据，其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然，每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一，还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..

发布时间：2021-11-14 23:31:34 apache-spark hdfs apache-spark-sql avro parquet 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常，线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..

发布时间：2021-11-14 23:30:16 json apache-spark apache-spark-sql parquet 其他开发

sparklyr spark_read_parquet 将字符串字段读取为列表

我有许多 parquet 格式的 Hive 文件，其中包含 string 和 double 列.我可以使用以下语法将它们中的大部分读入带有 sparklyr 的 Spark 数据帧: spark_read_parquet(sc, name = "name", path = "path", memory = FALSE) 但是，我在其中读取了一个文件，其中所有 string 值都转换为无法识别的 ..

发布时间：2021-11-14 23:29:09 r hive spark-dataframe parquet sparklyr 其他开发

Spark Sql - 插入外部 Hive 表错误

我正在尝试通过 spark sql 将数据插入到外部配置单元表中.我的蜂巢表是通过一列存储的.创建外部配置单元表的查询是这样的 create external table tab1 (col1 type,col2 type,col3 type) 由 (col1,col2) 聚类并由 (col1) 排序成 8 个存储为 parquet 的桶现在我尝试将 Parquet 文件(存储在 hdfs ..

发布时间：2021-11-14 23:28:26 apache-spark hive apache-spark-sql parquet 其他开发

如何在Spark Parquet中使用特殊字符处理Json中的键?

我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常，线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因. ..

发布时间：2021-11-14 23:26:51 json apache-spark apache-spark-sql parquet 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据，其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然，每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一，还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..

发布时间：2021-11-14 23:25:50 apache-spark hdfs apache-spark-sql avro parquet 其他开发

parquet相关内容