avro相关内容

在 SparkSQL 中使用 Avro 模式和 Parquet 格式进行读/写

我正在尝试从 SparkSQL 写入和读取 Parquet 文件.由于模式演变的原因,我想在我的写入和读取中使用 Avro 模式. 我的理解是,这可以在 Spark 之外(或在 Spark 中手动)使用例如AvroParquetWriter 和 Avro 的通用 API.但是,我想使用 SparkSQL 的 write() 和 read() 方法(与 DataFrameWriter 和 Da ..
发布时间:2021-11-14 22:41:17 其他开发

如何在 Spark 中创建一个空的数据帧

我有一组基于 Avro 的配置单元表,我需要从中读取数据.由于 Spark-SQL 使用 hive serdes 从 HDFS 读取数据,因此比直接读取 HDFS 慢得多.所以我使用数据砖 Spark-Avro jar 从底层 HDFS 目录读取 Avro 文件. 一切正常,除非桌子是空的.我已设法使用以下命令从 hive 表的 .avsc 文件中获取架构,但出现错误“未找到 Avro 文件 ..
发布时间:2021-11-14 22:34:04 其他开发

Avro Schema 激发 StructType

这实际上与我的上一个问题相同,但使用Avro 而不是 JSON 作为数据格式. 我正在使用一个 Spark 数据框,它可以从几个不同的架构版本之一加载数据: //版本一{“命名空间":“com.example.avro","类型": "记录","name": "我的对象",“领域":[{"name": "A", "type": ["null", "int"], "default": nul ..
发布时间:2021-11-14 21:59:14 Java开发

如何将 RDD[GenericRecord] 转换为 Scala 中的数据帧?

我使用 Avro(串行器和解串器)从 kafka 主题获取推文.然后我创建了一个火花消费者,它在 RDD [GenericRecord] 的 Dstream 中提取推文.现在我想将每个 rdd 转换为数据帧以通过 SQL 分析这些推文.任何将 RDD[GenericRecord] 转换为数据帧的解决方案? 解决方案 我花了一些时间试图使这项工作(特别是如何正确反序列化数据,但看起来您已经涵 ..
发布时间:2021-11-14 21:37:23 其他开发

将 Spark Structured Streaming 与 Confluent Schema Registry 集成

我在 Spark Structured Streaming 中使用 Kafka Source 来接收 Confluent 编码的 Avro 记录.我打算使用 Confluent Schema Registry,但是与 Spark 结构化流的集成似乎是不可能的. 我见过这个问题,但无法在 Confluent Schema Registry 中使用.使用 Spark 2.0 从 Kafka 读取 ..

无法在猪中加载 avro 架构

我有一个 avro 模式,我正在用该模式将数据写入 AvroSequenceFileOutputFormat.我查看了文件,可以确认该模式可供读取.我调用函数 avro = 使用 AvroStorage() 加载“part-r-00000.avro"; 它给了我错误信息 错误 org.apache.pig.tools.grunt.Grunt - 错误 2245:无法从 loadFunc or ..
发布时间:2021-11-12 04:17:21 其他开发

猪铸造/数据类型

我正在尝试将关系转储到 AVRO 文件中,但出现一个奇怪的错误: org.apache.pig.data.DataByteArray 不能转换为 java.lang.CharSequence 我不使用DataByteArray(字节数组),见下面的关系描述. sensitiveSet: {rank_ID: long,name: chararray,customerId: long,VIN: ..
发布时间:2021-11-12 04:13:28 Java开发

在 Apache NiFi 中定义 Apache Avro Schema 全名

使用 NiFi 1.7.1(使用 Java Avro 1.8.1)和 AvroSchemaRegistry,我试图定义一个包含 name 和 app.name 在顶层.根据 Avro 文档 [1],我假设我可以像普通的 "name": "app.name" 一样定义全名,但我遇到了错误 Illegal character in: app.名称.确实,全名的名称部分不允许使用点,但根据文档:“如果指 ..
发布时间:2021-11-12 03:56:53 其他开发

在 gradle 中使用 sbt Avrohugger 插件

我正在使用 https://github.com/julianpeeters/avrohugger sbt 插件生成 ScalaAvro .avsc 文件的 case 类.如何在 Gradle 项目中使用相同的插件? 解决方案 我创建了 gradle 插件,用于从 Avro 模式生成 Scala 案例类,它在内部使用 avrohugger 库. 所以现在把这个插件添加到你的项目中就足 ..
发布时间:2021-11-12 03:43:41 其他开发

使用 kafka lib 反序列化 PRIMITIVE AVRO KEY

我目前无法在 KSTREAM 应用程序中反序列化 avro PRIMITIVE 密钥 使用 avro 模式(在模式注册表中注册)编码的密钥, 当我使用 kafka-avro-console-consumer 时,我可以看到密钥被正确反序列化 但不可能让它在 KSTREAM 应用程序中工作 键的 avro 模式是一个 PRIMITIVE: {"type":"string"} ..

debezium - 架构注册表问题

我正在为 debezium 使用 AWS 架构注册表. 在 debezium 中,我提到服务器名称为 mysql-db01.因此,debezium 将使用此服务器名称创建一个主题,以添加一些有关服务器和架构更改的元数据. 当我部署连接器时,在架构注册表中我得到了这样的架构. {“类型":“记录",“名称":“SchemaChangeKey",“命名空间":“io.debezium.c ..
发布时间:2021-11-12 03:31:56 其他开发