spark-avro相关内容

如何在 Spark 中创建一个空的数据帧

我有一组基于 Avro 的配置单元表,我需要从中读取数据.由于 Spark-SQL 使用 hive serdes 从 HDFS 读取数据,因此比直接读取 HDFS 慢得多.所以我使用数据砖 Spark-Avro jar 从底层 HDFS 目录读取 Avro 文件. 一切正常,除非桌子是空的.我已设法使用以下命令从 hive 表的 .avsc 文件中获取架构,但出现错误“未找到 Avro 文件 ..
发布时间:2021-11-14 22:34:04 其他开发

如何在不使用合并的情况下在本地系统的单个文件中写入火花数据帧

我想从 pyspark 数据帧生成一个 avro 文件,目前我正在做 coalesce 如下 df = df.coalesce(1)df.write.format('avro').save('file:///mypath') 但这会导致内存问题,因为所有数据在写入之前都会被提取到内存中,而且我的数据大小每天都在持续增长.所以我想按每个分区写入数据,以便数据以块的形式写入磁盘并且不会引发 OOM ..
发布时间:2021-06-25 18:31:43 其他开发

Spark Dataset mapGroups操作后,值类型为二进制,甚至在函数中返回String

环境: Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作 1)将输入数据转换为数据集[GenericRecord] 2)按GenericRecord的关键属性分组 3)组后使用mapGroups迭代值列表并以String格式获取一些结果 4)在文本文件中将结果输出为字符串. 写入文本文件时发生错误.Spar ..

如何在Spark中创建一个空的dataFrame

我有一组基于Avro的配置单元表,我需要从中读取数据.由于Spark-SQL使用配置单元Serdes从HDFS读取数据,因此它比直接读取HDFS慢得多.因此,我使用了数据砖Spark-Avro jar从底层HDFS目录中读取Avro文件. 一切正常,除非表为空.我已经使用以下命令从hive表的.avsc文件中获取了架构,但是出现了错误"未找到Avro文件" val schemaFile ..
发布时间:2021-04-08 19:36:50 其他开发

使用pyspark在Jupyter Notebook中读取Avro文件时遇到问题

我正在尝试使用pyspark在Jupyter笔记本中读取avro文件.当我读取文件时,出现错误. 我已经下载了spark-avro_2.11:4.0.0.jar,我不确定应该在我的代码中的哪个位置插入avro软件包.任何建议都会很棒. 这是我用来读取avro文件的代码的示例 df_avro_example = sqlContext.read.format("com.databri ..
发布时间:2021-02-09 19:01:49 其他开发

在正在运行的Spark Streaming应用程序中处理架构更改

我正在寻找在Spark 1.6上使用DataFrames API构建一个Spark Streaming应用程序.在深入研究之前,我希望有人能帮助我理解DataFrames如何处理具有不同架构的数据. 这个想法是消息将通过Avro模式流入Kafka.我们应该能够以向后兼容的方式来发展模式,而不必重启流应用程序(应用程序逻辑仍将起作用). 使用模式注册表反序列化新版本的消息以及使用Kafk ..
发布时间:2020-07-08 19:06:13 其他开发