parquet相关内容

在 Spark 中读取分区镶木地板

我有一个如下所示的暂存数据目录,我希望能够将 2018 年和 2019 年的数据读入一个数据帧,而无需单独读取和合并. 据我所知,我应该能够将 car_data 目录提供给 spark 并应用一个过滤器,哪个 spark 会向下推?当我尝试这样做时,它说无法推断架构,因此必须手动定义它. 注意:我需要在不将年份文件夹的名称更改为 year=2018 的情况下执行此操作 如何为以下 ..
发布时间:2021-11-14 23:25:06 其他开发

在 Spark 中读取分区镶木地板

我有一个如下所示的暂存数据目录,我希望能够将 2018 年和 2019 年的数据读入一个数据帧,而无需单独读取和合并. 据我所知,我应该能够将 car_data 目录提供给 spark 并应用一个过滤器,哪个 spark 会向下推?当我尝试这样做时,它说无法推断架构,因此必须手动定义它. 注意:我需要在不将年份文件夹的名称更改为 year=2018 的情况下执行此操作 如何为以下 ..
发布时间:2021-11-14 23:21:13 其他开发

在 Athena 中重命名列

Athena 表“组织"从 s3 中的镶木地板文件读取数据.我需要将列名从 "cost" 更改为 "fee" .数据文件可以追溯到 2018 年 1 月.如果我只是重命名 Athena 中的列,表将无法在 Parquet 文件中找到新列的数据.请告诉我是否有解决方法. 解决方案 您必须更改架构并指向新列“费用" 但这取决于你的情况. 如果您有两个数据集,在一个数据集中它称为“成 ..

pySpark:java.lang.UnsupportedOperationException:未实现的类型:StringType

在读取不一致的模式编写的镶木地板文件组时,我们在模式合并方面遇到了问题.在切换到手动指定架构时,我收到以下错误.任何指针都会有所帮助. java.lang.UnsupportedOperationException:未实现的类型:StringType在 org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnRea ..
发布时间:2021-11-14 23:10:47 其他开发

pySpark:java.lang.UnsupportedOperationException:未实现的类型:StringType

在读取不一致的模式编写的镶木地板文件组时,我们在模式合并方面遇到了问题.在切换到手动指定架构时,我收到以下错误.任何指针都会有所帮助. java.lang.UnsupportedOperationException:未实现的类型:StringType在 org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnRea ..
发布时间:2021-11-14 23:10:22 其他开发

外部表未从火花流写入的镶木地板文件更新

我正在使用 Spark 流将聚合输出作为镶木地板文件写入使用 SaveMode.Append 的 hdfs.我创建了一个外部表,如: CREATE TABLE 如果不存在 rolluptable使用 org.apache.spark.sql.parquet选项 (路径“hdfs:////"); 我的印象是,如果是外部表,查询也应该从新添加的镶木地板文件中获取数据.但是,似乎新写入的文件没有被提 ..
发布时间:2021-11-14 22:59:42 其他开发

如何使用 SPARK 将多个镶木地板文件转换为 TFrecord 文件?

我想根据特定条件从大型 DataFrame 生成分层的 TFrecord 文件,为此我使用 write.partitionBy().我也在 SPARK 中使用了 tensorflow-connector,但这显然不能与 write.partitionBy() 操作一起使用.因此,除了尝试分两步工作之外,我还没有找到其他方法: 根据我的情况,使用 partitionBy() 重新分区数据帧,并 ..
发布时间:2021-11-14 22:45:29 其他开发

Impala:如何查询具有不同架构的多个镶木地板文件

在 Spark 2.1 中我经常使用类似 df = spark.read.parquet(/path/to/my/files/*.parquet) 即使具有不同的架构,也可以加载包含镶木地板文件的文件夹.然后我使用 SparkSQL 对数据框执行一些 SQL 查询. 现在我想尝试 Impala,因为我阅读了 wiki 文章,其中包含诸如: Apache Impala 是一个开源的大 ..
发布时间:2021-11-14 22:44:33 其他开发

Spark+Parquet“数据库"的设计

我每天收到 100G 文本文件,我希望创建一个可从 Spark 访问的高效“数据库".“数据库"是指对数据执行快速查询的能力(回溯大约一年),每天增量添加数据,最好没有读锁. 假设我想使用 Spark SQL 和 parquet,实现这一目标的最佳方法是什么? 放弃并发读/写并将新数据附加到现有的镶木地板文件中. 为每一天的数据创建一个新的镶木地板文件,并利用 Spark 可以加载多 ..
发布时间:2021-11-14 22:42:06 其他开发

在 SparkSQL 中使用 Avro 模式和 Parquet 格式进行读/写

我正在尝试从 SparkSQL 写入和读取 Parquet 文件.由于模式演变的原因,我想在我的写入和读取中使用 Avro 模式. 我的理解是,这可以在 Spark 之外(或在 Spark 中手动)使用例如AvroParquetWriter 和 Avro 的通用 API.但是,我想使用 SparkSQL 的 write() 和 read() 方法(与 DataFrameWriter 和 Da ..
发布时间:2021-11-14 22:41:17 其他开发

镶木地板文件是否保留 Spark DataFrames 的行顺序?

当我将 Spark DataFrame 保存为 parquet 文件然后读回它时,生成的 DataFrame 的行与原始数据不同,如下面的会话所示.这是 DataFrames 或镶木地板文件的“功能"吗?以保留行顺序的方式保存 DataFrame 的最佳方法是什么? >>>将 numpy 导入为 np>>>将熊猫导入为 pd>>>pdf = pd.DataFrame(np.random.rand ..
发布时间:2021-11-14 22:40:46 其他开发

在简单的 SparkSQL 查询中未修剪分区

我正在尝试从 SparkSQL 表(S3 中的镶木地板)中有效地选择单个分区.但是,我看到 Spark 打开表中所有镶木地板文件的证据,而不仅仅是那些通过过滤器的文件.这使得对于具有大量分区的表来说,即使是小查询也很昂贵. 这是一个说明性示例.我使用 SparkSQL 和 Hive 元存储在 S3 上创建了一个简单的分区表: #制作一些数据df = pandas.DataFrame({'p ..
发布时间:2021-11-14 22:40:04 其他开发

Spark SQL:嵌套类到镶木地板错误

我似乎无法编写拼花 JavaRDD ,其中 T 是一个说,Person 类.我把它定义为 public class Person 实现了Serializable{private static final long serialVersionUID = 1L;私人字符串名称;私人字符串年龄;私人地址地址;.... 与地址: 公共类地址实现Serializable{private static ..
发布时间:2021-11-14 22:33:58 Java开发