spark-avro - IT屋-程序员软件开发技术分享社区

单个架构中相同类型的多条AVRO记录

我喜欢在Avro模式中多次使用相同的记录类型。考虑以下架构定义 { "type": "record", "name": "OrderBook", "namespace": "my.types", "doc": "Test order update", "fields": [ { "name": "bids", ..

发布时间：2022-04-27 17:50:31 avro spark-avro 其他开发

如何使用 spark-avro 包从 spark-shell 读取 avro 文件?

我正在尝试使用 spark-avro 包，如 Apache Avro 数据源指南. 当我提交以下命令时: val df = spark.read.format("avro").load("~/foo.avro") 我收到一个错误: java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRe ..

发布时间：2021-11-14 22:38:50 apache-spark apache-spark-sql avro spark-avro 其他开发

我有一组基于 Avro 的配置单元表，我需要从中读取数据.由于 Spark-SQL 使用 hive serdes 从 HDFS 读取数据，因此比直接读取 HDFS 慢得多.所以我使用数据砖 Spark-Avro jar 从底层 HDFS 目录读取 Avro 文件. 一切正常，除非桌子是空的.我已设法使用以下命令从 hive 表的 .avsc 文件中获取架构，但出现错误“未找到 Avro 文件 ..

发布时间：2021-11-14 22:34:04 scala apache-spark apache-spark-sql avro spark-avro 其他开发

如何查询avro格式的数据集?

这适用于镶木地板 val sqlDF = spark.sql("SELECT DISTINCT field FROM parquet.`file-path'") 我尝试了与 Avro 相同的方法，但即使我使用 com.databricks.spark.avro，它仍然给我一个错误. 当我执行以下查询时: val sqlDF = spark.sql("SELECT DISTINCT S ..

发布时间：2021-11-14 22:30:59 apache-spark apache-spark-sql spark-avro 其他开发

如何在不使用合并的情况下在本地系统的单个文件中写入火花数据帧

我想从 pyspark 数据帧生成一个 avro 文件，目前我正在做 coalesce 如下 df = df.coalesce(1)df.write.format('avro').save('file:///mypath') 但这会导致内存问题，因为所有数据在写入之前都会被提取到内存中，而且我的数据大小每天都在持续增长.所以我想按每个分区写入数据，以便数据以块的形式写入磁盘并且不会引发 OOM ..

发布时间：2021-06-25 18:31:43 apache-spark pyspark spark-avro 其他开发

Spark Dataset mapGroups操作后，值类型为二进制，甚至在函数中返回String

环境: Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作 1)将输入数据转换为数据集[GenericRecord] 2)按GenericRecord的关键属性分组 3)组后使用mapGroups迭代值列表并以String格式获取一些结果 4)在文本文件中将结果输出为字符串. 写入文本文件时发生错误.Spar ..

发布时间：2021-04-08 20:24:11 apache-spark apache-spark-dataset spark-avro apache-spark-encoders 其他开发

如何在Spark中创建一个空的dataFrame

我有一组基于Avro的配置单元表，我需要从中读取数据.由于Spark-SQL使用配置单元Serdes从HDFS读取数据，因此它比直接读取HDFS慢得多.因此，我使用了数据砖Spark-Avro jar从底层HDFS目录中读取Avro文件. 一切正常，除非表为空.我已经使用以下命令从hive表的.avsc文件中获取了架构，但是出现了错误"未找到Avro文件" val schemaFile ..

发布时间：2021-04-08 19:36:50 scala apache-spark apache-spark-sql avro spark-avro 其他开发

使用pyspark在Jupyter Notebook中读取Avro文件时遇到问题

我正在尝试使用pyspark在Jupyter笔记本中读取avro文件.当我读取文件时，出现错误. 我已经下载了spark-avro_2.11:4.0.0.jar，我不确定应该在我的代码中的哪个位置插入avro软件包.任何建议都会很棒. 这是我用来读取avro文件的代码的示例 df_avro_example = sqlContext.read.format("com.databri ..

发布时间：2021-02-09 19:01:49 pyspark jupyter-notebook spark-avro 其他开发

avro json附加字段

我有以下avro模式 { "type":"record", "name":"test", "namespace":"test.name", "fields":[ {"name":"items","type": {"type":"array", "items": ..

发布时间：2020-07-08 19:06:23 avro spark-avro 其他开发

如何以avro格式查询数据集?

这可用于镶木地板 val sqlDF = spark.sql("SELECT DISTINCT field FROM parquet.`file-path'") 我用Avro尝试了相同的方法，但是即使我使用com.databricks.spark.avro，它也总是给我一个错误. 当我执行以下查询时: val sqlDF = spark.sql("SELECT DISTIN ..

发布时间：2020-07-08 19:06:21 apache-spark apache-spark-sql spark-avro 其他开发

如何使用spark-avro包从spark-shell读取avro文件?

我正在尝试使用spark-avro包，如当我提交以下命令时: val df = spark.read.format("avro").load("~/foo.avro") 我得到一个错误: java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org ..

发布时间：2020-07-08 19:06:15 apache-spark apache-spark-sql avro spark-avro 其他开发

在正在运行的Spark Streaming应用程序中处理架构更改

我正在寻找在Spark 1.6上使用DataFrames API构建一个Spark Streaming应用程序.在深入研究之前，我希望有人能帮助我理解DataFrames如何处理具有不同架构的数据. 这个想法是消息将通过Avro模式流入Kafka.我们应该能够以向后兼容的方式来发展模式，而不必重启流应用程序(应用程序逻辑仍将起作用). 使用模式注册表反序列化新版本的消息以及使用Kafk ..

发布时间：2020-07-08 19:06:13 apache-spark spark-streaming avro spark-avro 其他开发

如何将嵌套的avro GenericRecord转换为Row

我有一个代码将我的avro记录转换为Row，使用函数 avroToRowConverter（） directKafkaStream.foreachRDD（rdd - > { JavaRDD newRDD = rdd.map（x-> { Injection ; recordInjection = GenericAvroCo ..

发布时间：2018-12-10 10:15:08 java avro spark-avro Java开发

spark-avro相关内容