spark-avro相关内容
我喜欢在Avro模式中多次使用相同的记录类型。考虑以下架构定义 { "type": "record", "name": "OrderBook", "namespace": "my.types", "doc": "Test order update", "fields": [ { "name": "bids",
..
我正在尝试使用 spark-avro 包,如 Apache Avro 数据源指南. 当我提交以下命令时: val df = spark.read.format("avro").load("~/foo.avro") 我收到一个错误: java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRe
..
我有一组基于 Avro 的配置单元表,我需要从中读取数据.由于 Spark-SQL 使用 hive serdes 从 HDFS 读取数据,因此比直接读取 HDFS 慢得多.所以我使用数据砖 Spark-Avro jar 从底层 HDFS 目录读取 Avro 文件. 一切正常,除非桌子是空的.我已设法使用以下命令从 hive 表的 .avsc 文件中获取架构,但出现错误“未找到 Avro 文件
..
这适用于镶木地板 val sqlDF = spark.sql("SELECT DISTINCT field FROM parquet.`file-path'") 我尝试了与 Avro 相同的方法,但即使我使用 com.databricks.spark.avro,它仍然给我一个错误. 当我执行以下查询时: val sqlDF = spark.sql("SELECT DISTINCT S
..
我想从 pyspark 数据帧生成一个 avro 文件,目前我正在做 coalesce 如下 df = df.coalesce(1)df.write.format('avro').save('file:///mypath') 但这会导致内存问题,因为所有数据在写入之前都会被提取到内存中,而且我的数据大小每天都在持续增长.所以我想按每个分区写入数据,以便数据以块的形式写入磁盘并且不会引发 OOM
..
环境: Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作 1)将输入数据转换为数据集[GenericRecord] 2)按GenericRecord的关键属性分组 3)组后使用mapGroups迭代值列表并以String格式获取一些结果 4)在文本文件中将结果输出为字符串. 写入文本文件时发生错误.Spar
..
我有一组基于Avro的配置单元表,我需要从中读取数据.由于Spark-SQL使用配置单元Serdes从HDFS读取数据,因此它比直接读取HDFS慢得多.因此,我使用了数据砖Spark-Avro jar从底层HDFS目录中读取Avro文件. 一切正常,除非表为空.我已经使用以下命令从hive表的.avsc文件中获取了架构,但是出现了错误"未找到Avro文件" val schemaFile
..
我正在尝试使用pyspark在Jupyter笔记本中读取avro文件.当我读取文件时,出现错误. 我已经下载了spark-avro_2.11:4.0.0.jar,我不确定应该在我的代码中的哪个位置插入avro软件包.任何建议都会很棒. 这是我用来读取avro文件的代码的示例 df_avro_example = sqlContext.read.format("com.databri
..
我有以下avro模式 { "type":"record", "name":"test", "namespace":"test.name", "fields":[ {"name":"items","type": {"type":"array", "items":
..
这可用于镶木地板 val sqlDF = spark.sql("SELECT DISTINCT field FROM parquet.`file-path'") 我用Avro尝试了相同的方法,但是即使我使用com.databricks.spark.avro,它也总是给我一个错误. 当我执行以下查询时: val sqlDF = spark.sql("SELECT DISTIN
..
我正在尝试使用spark-avro包,如当我提交以下命令时: val df = spark.read.format("avro").load("~/foo.avro") 我得到一个错误: java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org
..
我正在寻找在Spark 1.6上使用DataFrames API构建一个Spark Streaming应用程序.在深入研究之前,我希望有人能帮助我理解DataFrames如何处理具有不同架构的数据. 这个想法是消息将通过Avro模式流入Kafka.我们应该能够以向后兼容的方式来发展模式,而不必重启流应用程序(应用程序逻辑仍将起作用). 使用模式注册表反序列化新版本的消息以及使用Kafk
..
我有一个代码将我的avro记录转换为Row,使用函数 avroToRowConverter() directKafkaStream.foreachRDD(rdd - > { JavaRDD newRDD = rdd.map(x-> { Injection ; recordInjection = GenericAvroCo
..