avro相关内容
我正在尝试使用 MRUnit 测试 Hadoop .mapreduce Avro 作业.我收到如下所示的 NullPointerException.我附上了一部分 pom 和源代码.任何援助将不胜感激. 谢谢 我得到的错误是: java.lang.NullPointerException在 org.apache.hadoop.mrunit.internal.io.Serializat
..
我有一个 JSON 文档,我想将其转换为 Avro,并且需要为此目的指定一个架构.这是我想为其定义 avro 模式的 JSON 文档: {“uid":29153333,"somefield": "somevalue",“选项": [{"item1_lvl2": "一个",“项目2_lvl2":[{“item1_lvl3":“x1",“item2_lvl3":“y1"},{“item1_lvl3"
..
BigQuery 通常在加载 Avro 数据方面做得很好,但是“bq load"在时间戳和其他使用 Avro logicalType 属性的日期/时间字段方面遇到了很多麻烦. 当 BigQuery TIMESTAMP 将它们解释为微秒时间戳(减少 1000)时,我的 Avro 类型时间戳毫秒数据被破坏. 可以加载到 TIMESTAMP 的时间戳微整数在 BigQuery DATETIME
..
我在 HDFS 中的文件路径中有 Avro 格式的数据,例如:/data/logs/[foldername]/[filename].avro.我想在所有这些日志文件上创建一个 Hive 表,即 /data/logs/*/* 形式的所有文件.(它们都基于相同的 Avro 架构.) 我正在使用标志 mapred.input.dir.recursive=true 运行以下查询: CREATE E
..
我正在尝试动态地(没有在 Hive DDL 中列出列名和类型)在镶木地板数据文件上创建一个 Hive 外部表.我有底层镶木地板文件的 Avro 架构. 我尝试使用以下 DDL: 创建外部表 parquet_test行格式 SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'储存为镶木地板位置 'hdfs://myParquetFilesP
..
我们正在寻找一种解决方案,以便创建一个外部配置单元表,以根据 parquet/avro 架构从 parquet 文件中读取数据. 换句话说,如何从 parquet/avro schema 生成 hive 表? 谢谢:) 解决方案 尝试以下使用 avro schema: CREATE TABLE avro_test ROW FORMAT SERDE 'org.apache.ha
..
我最近有一个需求,我需要生成可由 Apache Spark 仅使用 Java 读取的 Parquet 文件(不使用其他软件安装,例如:Apache Drill、Hive、Spark 等).文件需要保存到 S3,因此我将分享有关如何执行这两项操作的详细信息. 没有关于如何执行此操作的简单指南.我也不是 Java 程序员,所以使用 Maven、Hadoop 等的概念对我来说都是陌生的.所以我花了
..
需要你的帮助! 我正在尝试从 Twitter 获取数据,然后将其加载到 Hive 中进行分析的简单练习.虽然我能够使用flume(使用Twitter 1% firehose Source)将数据导入HDFS,也能够将数据加载到Hive表中. 但无法看到我期望在 Twitter 数据中出现的所有列,例如 user_location、user_description、user_friend
..
目前我们在生产中使用 Avro 数据格式.在使用 Avro 的几个优点中,我们知道它在模式演化方面的优势. 现在我们正在评估 Parquet 格式,因为它在读取随机列时的效率.所以在继续之前,我们关心的仍然是架构演变. 有谁知道在镶木地板中是否可以进行模式演变,如果是,如何是可能的,如果不是,则为什么不可以. 一些 资源 声称这是可能的,但它只能在末尾添加列. 这是什么意思
..
我打算在我的 hadoop 相关项目中使用一种 hadoop 文件格式.我理解对于基于列的查询和 avro 进行全面扫描或当我们需要所有列数据时,parquet 是有效的! 在我继续并选择其中一种文件格式之前,我想了解一种相对于另一种的缺点/缺点.谁能用简单的语言给我解释一下? 解决方案 如果您还没有决定,我会继续为您的数据编写 Avro 模式.完成后,在 Avro 容器文件和 Pa
..
Apache Parquet 的特点是: 自我描述 列格式 独立于语言 与 Avro、序列文件、RC 文件等相比.我想了解一下这些格式.我已经阅读了:Impala 如何使用 Hadoop 文件格式 ,它提供了一些关于格式的见解,但我想知道如何访问数据 &数据的存储以这些格式中的每一种完成.镶木地板比其他地板有什么优势? 解决方案 我认为我可以描述的主要区别与面向记录的格式与
..
我正在尝试使用 操作在 Oozie 工作流中执行 Map-Reduce 任务. O'Reilley 的 Apache Oozie(Islam and Srinivasan 2015)指出: 虽然不推荐,但可以使用 Java action 来运行 Hadoop MapReduce 作业,因为 MapReduce 作业毕竟只是 Java 程序.调用的主类可以是 Hadoop MapRedu
..
我正在尝试使用 Avro 架构验证 JSON 文件并编写相应的 Avro 文件.首先,我定义了以下名为 user.avsc 的 Avro 模式: {"namespace": "example.avro","类型": "记录","name": "用户",“领域":[{"name": "name", "type": "string"},{"name": "favorite_number", "typ
..
我找不到使用 C# 反序列化 Apache Avro 文件的方法.Avro 文件是由存档功能 在 Microsoft Azure 事件中心. 使用 Java 我可以使用 Avro Tools 将文件转换为 JSON: java -jar avro-tools-1.8.1.jar tojson --pretty inputfile >输出.json 使用 NuGet 包 Microsoft
..
使用 InferAvroSchema 我得到了我的文件的 Avro Schema.我想使用这个 Avro 模式在 PostregSql 中创建一个表.我必须使用哪个处理器. 我使用:GetFile->InferAvroSchema->我想从这个模式创建一个表->放置databaseRecord. avro 架构: {“类型":“记录","name": "保修","doc" : "风筝
..
我正在从贝叶斯统计模型中获取样本,使用 Avro 将它们序列化,将它们上传到 S3,然后使用 Athena 查询它们. 我需要帮助编写一个查询,在表中取消嵌套数组. CREATE TABLE 查询如下所示: 创建外部表`model_posterior`(`job_id` bigint,`model_id` bigint,`parents` 数组,`posterior_samples`
..
我正在尝试对我的 JSON 字符串进行 avro 二进制编码.下面是我的 JSON 字符串,我创建了一个简单的方法来进行转换,但我不确定我的做法是否正确? public static void main(String args[]) 抛出异常{尝试{Schema schema = new Parser().parse((TestExample.class.getResourceAsStream(
..
我正在绝望地尝试配置序列化程序实例以在我的 Storm 拓扑中使用. storm 文档指出,有两种方法可以注册序列化程序: 1.要注册的类的名称.在这种情况下,Storm 将使用 Kryo 的 FieldsSerializer 来序列化类.这可能是课程的最佳选择,也可能不是 - 有关更多详细信息,请参阅 Kryo 文档.2. 从要注册的类的名称到 com.esotericsoftware.
..
我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File..
..
我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File..
..