avro 第2页 - IT屋-程序员软件开发技术分享社区

序列化中带有 Avro NullPointerException 的 MRUnit

我正在尝试使用 MRUnit 测试 Hadoop .mapreduce Avro 作业.我收到如下所示的 NullPointerException.我附上了一部分 pom 和源代码.任何援助将不胜感激. 谢谢我得到的错误是: java.lang.NullPointerException在 org.apache.hadoop.mrunit.internal.io.Serializat ..

发布时间：2022-01-13 23:30:36 hadoop mapreduce avro mrunit 其他开发

如何为复杂的 json 文档定义 avro 模式?

我有一个 JSON 文档，我想将其转换为 Avro，并且需要为此目的指定一个架构.这是我想为其定义 avro 模式的 JSON 文档: {“uid":29153333，"somefield": "somevalue",“选项": [{"item1_lvl2": "一个",“项目2_lvl2":[{“item1_lvl3":“x1"，“item2_lvl3":“y1"},{“item1_lvl3" ..

发布时间：2022-01-13 23:23:25 json serialization mapreduce avro 其他开发

Avro 日期和时间与 BigQuery 的兼容性?

BigQuery 通常在加载 Avro 数据方面做得很好，但是“bq load"在时间戳和其他使用 Avro logicalType 属性的日期/时间字段方面遇到了很多麻烦. 当 BigQuery TIMESTAMP 将它们解释为微秒时间戳(减少 1000)时，我的 Avro 类型时间戳毫秒数据被破坏. 可以加载到 TIMESTAMP 的时间戳微整数在 BigQuery DATETIME ..

发布时间：2021-12-30 23:06:52 google-bigquery avro 其他开发

Hive 使用来自嵌套子目录的输入创建表

我在 HDFS 中的文件路径中有 Avro 格式的数据，例如:/data/logs/[foldername]/[filename].avro.我想在所有这些日志文件上创建一个 Hive 表，即 /data/logs/*/* 形式的所有文件.(它们都基于相同的 Avro 架构.) 我正在使用标志 mapred.input.dir.recursive=true 运行以下查询: CREATE E ..

发布时间：2021-12-28 23:43:11 hadoop hive avro create-table hive-configuration 其他开发

在 Parquet 数据上使用 Avro 架构动态创建 Hive 外部表

我正在尝试动态地(没有在 Hive DDL 中列出列名和类型)在镶木地板数据文件上创建一个 Hive 外部表.我有底层镶木地板文件的 Avro 架构. 我尝试使用以下 DDL: 创建外部表 parquet_test行格式 SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'储存为镶木地板位置 'hdfs://myParquetFilesP ..

发布时间：2021-12-28 23:21:24 hive avro parquet 其他开发

创建 Hive 表以从 parquet/avro schema 读取 parquet 文件

我们正在寻找一种解决方案，以便创建一个外部配置单元表，以根据 parquet/avro 架构从 parquet 文件中读取数据. 换句话说，如何从 parquet/avro schema 生成 hive 表? 谢谢:) 解决方案尝试以下使用 avro schema: CREATE TABLE avro_test ROW FORMAT SERDE 'org.apache.ha ..

发布时间：2021-12-28 23:17:58 hive avro parquet 其他开发

如何使用纯 Java(包括日期和十进制类型)生成 Parquet 文件并上传到 S3 [Windows](无 HDFS)

我最近有一个需求，我需要生成可由 Apache Spark 仅使用 Java 读取的 Parquet 文件(不使用其他软件安装，例如:Apache Drill、Hive、Spark 等).文件需要保存到 S3，因此我将分享有关如何执行这两项操作的详细信息. 没有关于如何执行此操作的简单指南.我也不是 Java 程序员，所以使用 Maven、Hadoop 等的概念对我来说都是陌生的.所以我花了 ..

发布时间：2021-12-15 19:52:52 java apache-spark amazon-s3 avro parquet Java开发

无法将 twitter avro 数据正确加载到 hive 表中

需要你的帮助！我正在尝试从 Twitter 获取数据，然后将其加载到 Hive 中进行分析的简单练习.虽然我能够使用flume(使用Twitter 1% firehose Source)将数据导入HDFS，也能够将数据加载到Hive表中. 但无法看到我期望在 Twitter 数据中出现的所有列，例如 user_location、user_description、user_friend ..

发布时间：2021-12-15 18:57:59 hadoop avro flume-ng flume-twitter 其他开发

镶木地板格式的架构演变

目前我们在生产中使用 Avro 数据格式.在使用 Avro 的几个优点中，我们知道它在模式演化方面的优势. 现在我们正在评估 Parquet 格式，因为它在读取随机列时的效率.所以在继续之前，我们关心的仍然是架构演变. 有谁知道在镶木地板中是否可以进行模式演变，如果是，如何是可能的，如果不是，则为什么不可以. 一些资源声称这是可能的，但它只能在末尾添加列. 这是什么意思 ..

发布时间：2021-12-15 18:47:47 apache-spark hadoop data-warehouse avro parquet 其他开发

Avro 与 Parquet

我打算在我的 hadoop 相关项目中使用一种 hadoop 文件格式.我理解对于基于列的查询和 avro 进行全面扫描或当我们需要所有列数据时，parquet 是有效的！在我继续并选择其中一种文件格式之前，我想了解一种相对于另一种的缺点/缺点.谁能用简单的语言给我解释一下? 解决方案如果您还没有决定，我会继续为您的数据编写 Avro 模式.完成后，在 Avro 容器文件和 Pa ..

发布时间：2021-12-15 18:46:50 hadoop avro parquet 其他开发

与其他格式相比，镶木地板格式的优缺点是什么?

Apache Parquet 的特点是: 自我描述列格式独立于语言与 Avro、序列文件、RC 文件等相比.我想了解一下这些格式.我已经阅读了:Impala 如何使用 Hadoop 文件格式，它提供了一些关于格式的见解，但我想知道如何访问数据 &数据的存储以这些格式中的每一种完成.镶木地板比其他地板有什么优势? 解决方案我认为我可以描述的主要区别与面向记录的格式与 ..

发布时间：2021-12-15 18:32:04 file hadoop hdfs avro parquet 其他开发

Oozie:从 Oozie <java> 启动 Map-Reduce行动?

我正在尝试使用操作在 Oozie 工作流中执行 Map-Reduce 任务. O'Reilley 的 Apache Oozie(Islam and Srinivasan 2015)指出: 虽然不推荐，但可以使用 Java action 来运行 Hadoop MapReduce 作业，因为 MapReduce 作业毕竟只是 Java 程序.调用的主类可以是 Hadoop MapRedu ..

发布时间：2021-12-15 18:22:35 java hadoop mapreduce oozie avro Java开发

如何修复预期的启动联合.在命令行上将 JSON 转换为 Avro 时得到 VALUE_NUMBER_INT?

我正在尝试使用 Avro 架构验证 JSON 文件并编写相应的 Avro 文件.首先，我定义了以下名为 user.avsc 的 Avro 模式: {"namespace": "example.avro","类型": "记录","name": "用户",“领域":[{"name": "name", "type": "string"},{"name": "favorite_number", "typ ..

发布时间：2021-12-10 23:02:20 json validation avro 其他开发

使用 C# 反序列化 Avro 文件

我找不到使用 C# 反序列化 Apache Avro 文件的方法.Avro 文件是由存档功能在 Microsoft Azure 事件中心. 使用 Java 我可以使用 Avro Tools 将文件转换为 JSON: java -jar avro-tools-1.8.1.jar tojson --pretty inputfile >输出.json 使用 NuGet 包 Microsoft ..

发布时间：2021-12-06 18:25:13 c# azure hadoop avro C#/.NET

在 Nifi 中从 Avro Schema 创建 Postgresql 表

使用 InferAvroSchema 我得到了我的文件的 Avro Schema.我想使用这个 Avro 模式在 PostregSql 中创建一个表.我必须使用哪个处理器. 我使用:GetFile->InferAvroSchema->我想从这个模式创建一个表->放置databaseRecord. avro 架构: {“类型":“记录"，"name": "保修","doc" : "风筝 ..

发布时间：2021-11-28 21:40:42 json postgresql avro apache-nifi 其他开发

在 SQL (Athena) 中取消嵌套:如何将结构数组转换为从结构中提取的值数组?

我正在从贝叶斯统计模型中获取样本，使用 Avro 将它们序列化，将它们上传到 S3，然后使用 Athena 查询它们. 我需要帮助编写一个查询，在表中取消嵌套数组. CREATE TABLE 查询如下所示: 创建外部表`model_posterior`(`job_id` bigint，`model_id` bigint，`parents` 数组,`posterior_samples` ..

发布时间：2021-11-27 08:51:37 sql row avro amazon-athena unnest 其他开发

如何使用 Apache Avro 对 JSON 字符串进行 Avro 二进制编码?

我正在尝试对我的 JSON 字符串进行 avro 二进制编码.下面是我的 JSON 字符串，我创建了一个简单的方法来进行转换，但我不确定我的做法是否正确? public static void main(String args[]) 抛出异常{尝试{Schema schema = new Parser().parse((TestExample.class.getResourceAsStream( ..

发布时间：2021-11-18 05:00:05 java json binary bytearray avro Java开发

如何在storm中注册kryo序列化器实例?

我正在绝望地尝试配置序列化程序实例以在我的 Storm 拓扑中使用. storm 文档指出，有两种方法可以注册序列化程序: 1.要注册的类的名称.在这种情况下，Storm 将使用 Kryo 的 FieldsSerializer 来序列化类.这可能是课程的最佳选择，也可能不是 - 有关更多详细信息，请参阅 Kryo 文档.2. 从要注册的类的名称到 com.esotericsoftware. ..

发布时间：2021-11-14 23:39:39 java apache-storm avro kryo Java开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据，其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然，每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一，还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..

发布时间：2021-11-14 23:31:34 apache-spark hdfs apache-spark-sql avro parquet 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据，其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然，每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一，还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..

发布时间：2021-11-14 23:25:50 apache-spark hdfs apache-spark-sql avro parquet 其他开发

avro相关内容