avro相关内容

Avro 日期和时间与 BigQuery 的兼容性?

BigQuery 通常在加载 Avro 数据方面做得很好,但是“bq load"在时间戳和其他使用 Avro logicalType 属性的日期/时间字段方面遇到了很多麻烦. 当 BigQuery TIMESTAMP 将它们解释为微秒时间戳(减少 1000)时,我的 Avro 类型时间戳毫秒数据被破坏. 可以加载到 TIMESTAMP 的时间戳微整数在 BigQuery DATETIME ..
发布时间:2021-12-30 23:06:52 其他开发

在 Parquet 数据上使用 Avro 架构动态创建 Hive 外部表

我正在尝试动态地(没有在 Hive DDL 中列出列名和类型)在镶木地板数据文件上创建一个 Hive 外部表.我有底层镶木地板文件的 Avro 架构. 我尝试使用以下 DDL: 创建外部表 parquet_test行格式 SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'储存为镶木地板位置 'hdfs://myParquetFilesP ..
发布时间:2021-12-28 23:21:24 其他开发

创建 Hive 表以从 parquet/avro schema 读取 parquet 文件

我们正在寻找一种解决方案,以便创建一个外部配置单元表,以根据 parquet/avro 架构从 parquet 文件中读取数据. 换句话说,如何从 parquet/avro schema 生成 hive 表? 谢谢:) 解决方案 尝试以下使用 avro schema: CREATE TABLE avro_test ROW FORMAT SERDE 'org.apache.ha ..
发布时间:2021-12-28 23:17:58 其他开发

如何使用纯 Java(包括日期和十进制类型)生成 Parquet 文件并上传到 S3 [Windows](无 HDFS)

我最近有一个需求,我需要生成可由 Apache Spark 仅使用 Java 读取的 Parquet 文件(不使用其他软件安装,例如:Apache Drill、Hive、Spark 等).文件需要保存到 S3,因此我将分享有关如何执行这两项操作的详细信息. 没有关于如何执行此操作的简单指南.我也不是 Java 程序员,所以使用 Maven、Hadoop 等的概念对我来说都是陌生的.所以我花了 ..
发布时间:2021-12-15 19:52:52 Java开发

无法将 twitter avro 数据正确加载到 hive 表中

需要你的帮助! 我正在尝试从 Twitter 获取数据,然后将其加载到 Hive 中进行分析的简单练习.虽然我能够使用flume(使用Twitter 1% firehose Source)将数据导入HDFS,也能够将数据加载到Hive表中. 但无法看到我期望在 Twitter 数据中出现的所有列,例如 user_location、user_description、user_friend ..
发布时间:2021-12-15 18:57:59 其他开发

镶木地板格式的架构演变

目前我们在生产中使用 Avro 数据格式.在使用 Avro 的几个优点中,我们知道它在模式演化方面的优势. 现在我们正在评估 Parquet 格式,因为它在读取随机列时的效率.所以在继续之前,我们关心的仍然是架构演变. 有谁知道在镶木地板中是否可以进行模式演变,如果是,如何是可能的,如果不是,则为什么不可以. 一些 资源 声称这是可能的,但它只能在末尾添加列. 这是什么意思 ..
发布时间:2021-12-15 18:47:47 其他开发

Avro 与 Parquet

我打算在我的 hadoop 相关项目中使用一种 hadoop 文件格式.我理解对于基于列的查询和 avro 进行全面扫描或当我们需要所有列数据时,parquet 是有效的! 在我继续并选择其中一种文件格式之前,我想了解一种相对于另一种的缺点/缺点.谁能用简单的语言给我解释一下? 解决方案 如果您还没有决定,我会继续为您的数据编写 Avro 模式.完成后,在 Avro 容器文件和 Pa ..
发布时间:2021-12-15 18:46:50 其他开发

与其他格式相比,镶木地板格式的优缺点是什么?

Apache Parquet 的特点是: 自我描述 列格式 独立于语言 与 Avro、序列文件、RC 文件等相比.我想了解一下这些格式.我已经阅读了:Impala 如何使用 Hadoop 文件格式 ,它提供了一些关于格式的见解,但我想知道如何访问数据 &数据的存储以这些格式中的每一种完成.镶木地板比其他地板有什么优势? 解决方案 我认为我可以描述的主要区别与面向记录的格式与 ..
发布时间:2021-12-15 18:32:04 其他开发

Oozie:从 Oozie <java> 启动 Map-Reduce行动?

我正在尝试使用 操作在 Oozie 工作流中执行 Map-Reduce 任务. O'Reilley 的 Apache Oozie(Islam and Srinivasan 2015)指出: 虽然不推荐,但可以使用 Java action 来运行 Hadoop MapReduce 作业,因为 MapReduce 作业毕竟只是 Java 程序.调用的主类可以是 Hadoop MapRedu ..
发布时间:2021-12-15 18:22:35 Java开发

使用 C# 反序列化 Avro 文件

我找不到使用 C# 反序列化 Apache Avro 文件的方法.Avro 文件是由存档功能 在 Microsoft Azure 事件中心. 使用 Java 我可以使用 Avro Tools 将文件转换为 JSON: java -jar avro-tools-1.8.1.jar tojson --pretty inputfile >输出.json 使用 NuGet 包 Microsoft ..
发布时间:2021-12-06 18:25:13 C#/.NET

在 Nifi 中从 Avro Schema 创建 Postgresql 表

使用 InferAvroSchema 我得到了我的文件的 Avro Schema.我想使用这个 Avro 模式在 PostregSql 中创建一个表.我必须使用哪个处理器. 我使用:GetFile->InferAvroSchema->我想从这个模式创建一个表->放置databaseRecord. avro 架构: {“类型":“记录","name": "保修","doc" : "风筝 ..
发布时间:2021-11-28 21:40:42 其他开发

在 SQL (Athena) 中取消嵌套:如何将结构数组转换为从结构中提取的值数组?

我正在从贝叶斯统计模型中获取样本,使用 Avro 将它们序列化,将它们上传到 S3,然后使用 Athena 查询它们. 我需要帮助编写一个查询,在表中取消嵌套数组. CREATE TABLE 查询如下所示: 创建外部表`model_posterior`(`job_id` bigint,`model_id` bigint,`parents` 数组,`posterior_samples` ..
发布时间:2021-11-27 08:51:37 其他开发

如何在storm中注册kryo序列化器实例?

我正在绝望地尝试配置序列化程序实例以在我的 Storm 拓扑中使用. storm 文档指出,有两种方法可以注册序列化程序: 1.要注册的类的名称.在这种情况下,Storm 将使用 Kryo 的 FieldsSerializer 来序列化类.这可能是课程的最佳选择,也可能不是 - 有关更多详细信息,请参阅 Kryo 文档.2. 从要注册的类的名称到 com.esotericsoftware. ..
发布时间:2021-11-14 23:39:39 Java开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:31:34 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:25:50 其他开发