avro相关内容

Hive使用来自嵌套子目录的输入创建表

我在HDFS中使用Avro格式的数据,文件路径为: / data / logs / [文件夹名称] / [文件名称] .avro 。我想在所有这些日志文件上创建一个Hive表,即所有格式为 / data / logs / * / * 的文件。 (它们都基于相同的Avro模式。) 我使用标记 mapred.input.dir.recursive = true : CREATE EXTE ..
发布时间:2018-05-31 19:28:22 分布式计算/Hadoop

以镶木地板格式进行图式演变

目前我们正在生产中使用Avro数据格式。 在Avro的N个优点中,我们知道它在模式演变方面很出色。 现在我们正在评估 Parquet格式因为它在阅读随机列时效率很高。 所以在继续前进之前,我们的担忧是模式的进化! 有人知道模式进化是否可能在实木复合地板中,强>如何,如果没有为什么。 一些演示文稿说这是可能的,但最后只能添加列 这是什么意思? 感谢, 〜新手开发人员 ..
发布时间:2018-05-31 19:10:23 分布式计算/Hadoop

AWS EMR上的avro错误

我正在使用spark-redshift( https://github.com/databricks/spark-redshift 从Redshift中读取是可以的,在写入时我得到 导致:java.lang.NoSuchMethodError:org.apache.avro.generic.GenericData.createDatumWriter(Lorg / apache / av ..
发布时间:2018-05-31 19:01:04 Java开发

Avro v / s镶木地板

我打算为我的hadoop相关项目使用hadoop文件格式之一。我了解实木复合地板对于基于列的查询非常有效,而且对于全扫描或当我们需要所有列数据时都是有效的! 在我继续选择其中一种文件格式之前,我想先了解一个文件格式的缺点/缺点。任何人都可以用简单的方式向我解释它吗? 解决方案 如果你还没有决定, Avro模式为您的数据。完成之后,在Avro容器文件和Parquet文件之间进行选择就如同交换 ..
发布时间:2018-05-31 18:40:44 分布式计算/Hadoop

用C#反序列化Avro文件

我找不到用C#反序列化Apache Avro文件的方法。 Avro文件是由存档功能。 使用Java,我可以使用 Apache的Avro Tools 将文件转换为JSON: java -jar avro-tools-1.8.1.jar tojson --pretty inputfile> output.json 使用NuGet包 Microsoft.Hadoop.Av ..
发布时间:2018-05-31 18:36:47 C#/.NET

与其他格式相比,实木复合地板格式有哪些优缺点?

Apache Parquet的特点是: 自我描述 列式格式 与语言无关 与Avro,Sequence File,RC File等相比,的格式。我已阅读: Impala如何与Hadoop文件格式配合使用,它提供了关于格式的一些见解,但我想知道如何访问数据&数据存储以每种格式完成。 我认为我可以描述的主要区别与记录导向和列导向有关格式。面向记录的格式是我们都习惯的格式 - 文本文件,C ..
发布时间:2018-05-31 18:32:29 分布式计算/Hadoop

Oozie:从Oozie启动Map-Reduce< java>行动?

我试图使用 动作在Oozie工作流中执行Map-Reduce任务。 O'Reilley的(Islam and Srinivasan 2015)指出: 虽然不推荐Java操作可用于运行Hadoop MapReduce作业,因为MapReduce作业毕竟是Java程序。被调用的主类可以是Hadoop MapReduce驱动程序,可以调用Hadoop API来运行MapRedu ..
发布时间:2018-05-31 18:23:56 Java开发

将Avrocoder用于泛型的自定义类型

我尝试使用AvroCoder来序列化在我的管道中传递给PCollections的自定义类型。自定义类型有一个通用的字段(当前是一个字符串)当我运行管道时,可能由于泛型字段,我得到如下所示的AvroTypeException。是否构建并传递AvroSchema作为解决此问题的唯一方法? 线程“main”中的异常org.apache.avro.AvroTypeException:未知类型:T ..
发布时间:2018-05-10 13:27:34 其他开发

BQ加载错误:位置893786302中的Avro解析错误。数据块27406834的大小大于最大允许值16777216

对于BigQuery专家来说,我正在研究这个流程,它要求我们代表客户的购物历史记录,以便我们将所有最近12个月的交易连接在一起使用前缀进行Solr刻面。 在试图在BIG Query中加载这些数据时,我们得到的行数超过了错误。有什么办法可以解决这个问题吗?实际的元组大小约为64 MB,其中avro限制为16 MB。 [〜] $ bq load --source_format = AVR ..
发布时间:2018-05-07 17:45:57 其他开发

Avro日期和时间与BigQuery的兼容性?

BigQuery通常在加载Avro数据方面做得很好,但是“bq load”在使用Avro logicalType属性的时间戳和其他日期/时间字段中遇到了很多麻烦。 当BigQuery TIMESTAMP将它们解释为微秒时间戳(关闭1000)时,我的数据与Avro类型timestamp-millis发生了冲突。 时间戳 - 可以加载到TIMESTAMP中的微型整数在BigQuery DATE ..
发布时间:2018-05-07 17:29:10 其他开发

如何Avro的二进制EN code使用Apache Avro的JSON字符串?

我想Avro的二进制EN code我的JSON字符串。下面是我的JSON字符串,我创建了一个简单的方法,它会进行转换,但我不知道我做的方式是否正确呢? 公共静态无效的主要(字符串ARGS [])抛出异常{ 尝试{ 架构模式=新的解析器()解析((TestExample.class.getResourceAsStream(“/ 3233.avsc”)))。 JSON字符串=“{”+ ..
发布时间:2016-08-06 22:01:49 Java开发

Avro的模式引发StructType

这是有效地同我的 previous问题 ,但使用阿夫罗而非JSON作为数据格式。 我用一个Spark数据帧它可以从几个不同的模式版本之一加载数据时 //一个版本 {“命名空间”:“com.example.avro” “类型”:“记录”, “名”:“MeObject” “田”: {“名”:“A”,“型”:“空”,“INT”],“默认”:空} ] }//两个版本 {“命名空间” ..
发布时间:2016-05-22 16:43:52 Java开发

星火Python的Avro的卡夫卡解串器

我已经创建了蟒蛇火花应用卡夫卡流,并且可以解析自带通过它的任何文本。 kafkaStream = KafkaUtils.createStream(SSC,zkQuorum,“火花流媒体消费”,{话题:1}) 我想改变这是能够从卡夫卡的话题解析Avro的消息。当从一个文件解析的Avro的消息,我这样做:读者= DataFileReader(开放(“customer.avro”,“R”),Da ..
发布时间:2016-05-22 16:12:17 Python

我如何使用模式上登的Avro文件(S)加载在Avros火花?

我从包裹Cloudera的CDH运行与4.4星火0.9.0。 我有一堆猪通过的AvroStorage UDF创建的Avro的文件。我想用一个通用的记录或架构板载的Avro文件星火加载这些文件。到目前为止,我已经试过这样: 进口org.apache.avro.ma pred.Avro​​Key 进口org.apache.avro.ma preduce.Avro​​KeyInputFormat 进 ..
发布时间:2016-05-22 15:49:32 其他开发

星火:写入文件的Avro

我在星火,我有一个RDD从Avro的文件。我现在想做的事情上RDD一些转换和重新保存为一个文件的Avro: VAL工作=新工作(新配置()) AvroJob.setOutputKeySchema(工作,getOutputSchema(inputSchema))rdd.map(ELEM =&GT;(新SparkAvroKey(doTransformation(elem._1)),elem._2) ..
发布时间:2016-05-22 15:33:35 其他开发