avro 第19页 - IT屋-程序员软件开发技术分享社区

Flume：目录到Avro - > Avro转HDFS - 传输后无效

我有用户编写AVRO文件，我想用Flume将所有这些文件移动到使用Flume的HDFS中。因此，我可以稍后使用Hive或Pig来查询/分析数据。在客户端上安装了flume，并有一个SpoolDir源和AVRO接收器，如下所示： a1.sources = src1 a1.sinks = sink1 a1.channels = c1 1.channels.c1.type ..

发布时间：2018-05-31 19:30:51 hadoop hdfs flume avro 分布式计算/Hadoop

Hive使用来自嵌套子目录的输入创建表

我在HDFS中使用Avro格式的数据，文件路径为： / data / logs / [文件夹名称] / [文件名称] .avro 。我想在所有这些日志文件上创建一个Hive表，即所有格式为 / data / logs / * / * 的文件。（它们都基于相同的Avro模式。）我使用标记 mapred.input.dir.recursive = true ： CREATE EXTE ..

发布时间：2018-05-31 19:28:22 hadoop hive avro 分布式计算/Hadoop

使用avro工具Concat Avro文件

我试图将avro文件合并成一个大文件，问题是 concat 命令不接受通配符 hadoop jar avro-tools.jar concat / input / part * /output/bigfile.avro 我得到：线程“main”中的异常java.io.FileNotFoundException：文件不存在：/ input / part ..

发布时间：2018-05-31 19:11:57 hadoop hdfs avro avro-tools 分布式计算/Hadoop

以镶木地板格式进行图式演变

目前我们正在生产中使用Avro数据格式。在Avro的N个优点中，我们知道它在模式演变方面很出色。现在我们正在评估 Parquet格式因为它在阅读随机列时效率很高。所以在继续前进之前，我们的担忧是模式的进化！有人知道模式进化是否可能在实木复合地板中，强>如何，如果没有为什么。一些演示文稿说这是可能的，但最后只能添加列这是什么意思？感谢，〜新手开发人员 ..

发布时间：2018-05-31 19:10:23 hadoop apache-spark avro parquet dataformat 分布式计算/Hadoop

AWS EMR上的avro错误

我正在使用spark-redshift（ https://github.com/databricks/spark-redshift 从Redshift中读取是可以的，在写入时我得到导致：java.lang.NoSuchMethodError：org.apache.avro.generic.GenericData.createDatumWriter（Lorg / apache / av ..

发布时间：2018-05-31 19:01:04 java scala hadoop avro amazon-emr Java开发

Avro v / s镶木地板

我打算为我的hadoop相关项目使用hadoop文件格式之一。我了解实木复合地板对于基于列的查询非常有效，而且对于全扫描或当我们需要所有列数据时都是有效的！在我继续选择其中一种文件格式之前，我想先了解一个文件格式的缺点/缺点。任何人都可以用简单的方式向我解释它吗？解决方案如果你还没有决定， Avro模式为您的数据。完成之后，在Avro容器文件和Parquet文件之间进行选择就如同交换 ..

发布时间：2018-05-31 18:40:44 hadoop avro parquet 分布式计算/Hadoop

在序列化中带有Avro NullPointerException的MRUnit

我试图使用MRUnit测试Hadoop .mapreduce Avro作业。我收到一个NullPointerException，如下所示。我附加了一部分的pom和源代码。任何援助将不胜感激。谢谢我收到的错误是： java.lang.NullPointerException $ b $ org.apache.hadoop.mrunit.internal.io.Serializ ..

发布时间：2018-05-31 18:38:52 hadoop mapreduce avro mrunit 分布式计算/Hadoop

用C＃反序列化Avro文件

我找不到用C＃反序列化Apache Avro文件的方法。 Avro文件是由存档功能。使用Java，我可以使用 Apache的Avro Tools 将文件转换为JSON： java -jar avro-tools-1.8.1.jar tojson --pretty inputfile> output.json 使用NuGet包 Microsoft.Hadoop.Av ..

发布时间：2018-05-31 18:36:47 c# azure hadoop avro C#/.NET

与其他格式相比，实木复合地板格式有哪些优缺点？

Apache Parquet的特点是：自我描述列式格式与语言无关与Avro，Sequence File，RC File等相比，的格式。我已阅读： Impala如何与Hadoop文件格式配合使用，它提供了关于格式的一些见解，但我想知道如何访问数据&数据存储以每种格式完成。我认为我可以描述的主要区别与记录导向和列导向有关格式。面向记录的格式是我们都习惯的格式 - 文本文件，C ..

发布时间：2018-05-31 18:32:29 file hadoop hdfs avro parquet 分布式计算/Hadoop

Oozie：从Oozie启动Map-Reduce< java>行动？

我试图使用动作在Oozie工作流中执行Map-Reduce任务。 O'Reilley的（Islam and Srinivasan 2015）指出：虽然不推荐Java操作可用于运行Hadoop MapReduce作业，因为MapReduce作业毕竟是Java程序。被调用的主类可以是Hadoop MapReduce驱动程序，可以调用Hadoop API来运行MapRedu ..

发布时间：2018-05-31 18:23:56 java hadoop mapreduce oozie avro Java开发

将Avrocoder用于泛型的自定义类型

我尝试使用AvroCoder来序列化在我的管道中传递给PCollections的自定义类型。自定义类型有一个通用的字段（当前是一个字符串）当我运行管道时，可能由于泛型字段，我得到如下所示的AvroTypeException。是否构建并传递AvroSchema作为解决此问题的唯一方法？线程“main”中的异常org.apache.avro.AvroTypeException：未知类型：T ..

发布时间：2018-05-10 13:27:34 google-cloud-platform avro google-cloud-dataflow 其他开发

BQ加载错误：位置893786302中的Avro解析错误。数据块27406834的大小大于最大允许值16777216

对于BigQuery专家来说，我正在研究这个流程，它要求我们代表客户的购物历史记录，以便我们将所有最近12个月的交易连接在一起使用前缀进行Solr刻面。在试图在BIG Query中加载这些数据时，我们得到的行数超过了错误。有什么办法可以解决这个问题吗？实际的元组大小约为64 MB，其中avro限制为16 MB。 [〜] $ bq load --source_format = AVR ..

发布时间：2018-05-07 17:45:57 google-bigquery avro google-storage-api 其他开发

是否可以使用Snappy压缩将Avro文件加载到BigQuery中？

我知道BigQuery支持Avro文件上传，并且我成功地将Avro文件加载到BigQuery中。使用以下命令， java -jar avro-tools-1.7.7.jar fromjson --codec snappy --schema-file SourceSchema.avsc Source.json> Output.snappy.avro 我用Snappy ..

发布时间：2018-05-07 17:40:32 google-bigquery avro snappy 其他开发

Avro日期和时间与BigQuery的兼容性？

BigQuery通常在加载Avro数据方面做得很好，但是“bq load”在使用Avro logicalType属性的时间戳和其他日期/时间字段中遇到了很多麻烦。当BigQuery TIMESTAMP将它们解释为微秒时间戳（关闭1000）时，我的数据与Avro类型timestamp-millis发生了冲突。时间戳 - 可以加载到TIMESTAMP中的微型整数在BigQuery DATE ..

发布时间：2018-05-07 17:29:10 google-bigquery avro 其他开发

Apache Avro框架可以在序列化期间处理参数化类型吗？

当我尝试序列化一个使用泛型的实例时，我发现Avro框架抛出了这个异常 - 在系列化过程中，Apache Avro可以处理参数化类型吗？ org.apache.avro.AvroTypeException：未知类型：T at org.apache.avro.specific.SpecificData.createSchema（SpecificData .java：255） at or ..

发布时间：2018-04-23 13:44:39 java generics avro parameterized parameterized-types Java开发

如何Avro的二进制EN code使用Apache Avro的JSON字符串？

我想Avro的二进制EN code我的JSON字符串。下面是我的JSON字符串，我创建了一个简单的方法，它会进行转换，但我不知道我做的方式是否正确呢？公共静态无效的主要（字符串ARGS []）抛出异常{ 尝试{ 架构模式=新的解析器（）解析（（TestExample.class.getResourceAsStream（“/ 3233.avsc”）））。 JSON字符串=“{”+ ..

发布时间：2016-08-06 22:01:49 java json binary bytearray avro Java开发

Avro的模式引发StructType

这是有效地同我的 previous问题，但使用阿夫罗而非JSON作为数据格式。我用一个Spark数据帧它可以从几个不同的模式版本之一加载数据时 //一个版本 {“命名空间”：“com.example.avro” “类型”：“记录”， “名”：“MeObject” “田”： {“名”：“A”，“型”：“空”，“INT”]，“默认”：空} ] }//两个版本 {“命名空间” ..

发布时间：2016-05-22 16:43:52 java apache-spark apache-spark-sql avro Java开发

星火Python的Avro的卡夫卡解串器

我已经创建了蟒蛇火花应用卡夫卡流，并且可以解析自带通过它的任何文本。 kafkaStream = KafkaUtils.createStream（SSC，zkQuorum，“火花流媒体消费”，{话题：1}）我想改变这是能够从卡夫卡的话题解析Avro的消息。当从一个文件解析的Avro的消息，我这样做：读者= DataFileReader（开放（“customer.avro”，“R”），Da ..

发布时间：2016-05-22 16:12:17 python apache-spark apache-kafka avro spark-streaming Python

我如何使用模式上登的Avro文件（S）加载在Avros火花？

我从包裹Cloudera的CDH运行与4.4星火0.9.0。我有一堆猪通过的AvroStorage UDF创建的Avro的文件。我想用一个通用的记录或架构板载的Avro文件星火加载这些文件。到目前为止，我已经试过这样：进口org.apache.avro.ma pred.AvroKey 进口org.apache.avro.ma preduce.AvroKeyInputFormat 进 ..

发布时间：2016-05-22 15:49:32 scala hadoop avro apache-spark 其他开发

我在星火，我有一个RDD从Avro的文件。我现在想做的事情上RDD一些转换和重新保存为一个文件的Avro： VAL工作=新工作（新配置（）） AvroJob.setOutputKeySchema（工作，getOutputSchema（inputSchema））rdd.map（ELEM =＆GT;（新SparkAvroKey（doTransformation（elem._1）），elem._2） ..

发布时间：2016-05-22 15:33:35 scala serialization avro apache-spark 其他开发

avro相关内容