parquet相关内容

Spark异常:写入行时任务失败

我正在阅读文本文件并将其转换为实木复合地板文件。我正在使用spark代码。但是当我尝试运行代码时,出现以下异常: $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ org.apache.spark.SparkException:由于阶段失败导致作业中止:阶段1.0中的任务2失败4次,最近失败:阶段1.0中丢失的任务2.3(TID 9,ukfhpdbivp12.uk.experi ..
发布时间:2018-05-31 19:32:35 Java开发

是否可以在不依赖Hadoop和HDFS的情况下使用Java来读写Parquet?

在我看来,没有办法在Java中嵌入Parquet格式的阅读和书写程序,而不依赖于HDFS和Hadoop。它是否正确? 我想在Hadoop集群之外的客户机上读写。 我开始对Apache Drill感到兴奋,但它似乎必须作为一个单独的过程运行。我需要的是使用Parquet格式读取和写入文件的进程内功能。 可以编写parquet格式使用java parquet客户端API进行hadoop集群 ..
发布时间:2018-05-31 19:24:23 Java开发

以镶木地板格式进行图式演变

目前我们正在生产中使用Avro数据格式。 在Avro的N个优点中,我们知道它在模式演变方面很出色。 现在我们正在评估 Parquet格式因为它在阅读随机列时效率很高。 所以在继续前进之前,我们的担忧是模式的进化! 有人知道模式进化是否可能在实木复合地板中,强>如何,如果没有为什么。 一些演示文稿说这是可能的,但最后只能添加列 这是什么意思? 感谢, 〜新手开发人员 ..
发布时间:2018-05-31 19:10:23 分布式计算/Hadoop

Parquet vs ORC与ORC与Snappy

我正在对Hive提供的存储格式进行一些测试,并使用Parquet和ORC作为主要选项。我已经阅读了许多文件,说明Parquet在时间/空间复杂性方面比ORC好,但我的测试与我所经历的文档相反。 关注我的数据的一些细节。 表A-文本文件格式 - 2.5GB 表B - ORC - 652MB 表C - 带Snappy的ORC - 802MB 表D - 实 ..
发布时间:2018-05-31 19:03:36 分布式计算/Hadoop

是否可以直接从文件加载镶木地板表?

如果我有一个二进制数据文件(它可以转换为csv格式),有没有办法直接从它加载镶木地板表?许多教程显示将csv文件加载到文本表格,然后从文本表格加载到镶木地板表格。从效率的角度来看,是否可以直接从我已有的二进制文件中加载镶木地板表?理想情况下使用create external table命令。 或者我需要先将它转换为csv文件?是否有任何文件格式限制? 解决方案 遗憾的是,无法从Impal ..
发布时间:2018-05-31 18:58:14 分布式计算/Hadoop

使用Java API将Parquet格式写入HDFS,而不使用Avro和MR

通过直接创建Poquet的Parquet架构来将 Parquet格式写入 HDFS (使用Java API)的简单方法是:使用 avro 和 MR ? 我发现的示例已过时,并且使用不推荐使用的方法也使用Avro, spark或MR。 解决方案 实际上,没有大量样本可用于读取/写入Apache parquet文件,一个外部框架。 核心parquet库是parquet-column ..
发布时间:2018-05-31 18:58:12 Java开发

有一个大的镶木地板文件或许多较小的镶木地板文件是更好的吗?

我知道hdfs会将文件分割成64mb的块。我们有流媒体数据,我们可以将它们存储到大文件或中等大小的文件中。柱状文件存储的最佳大小是多少?如果我可以将文件存储到最小的列为64mb的位置,那么它是否可以节省计算时间,比如拥有1GB文件? 解决方案每个文件大约1GB(火花分区)(1)。 理想情况下,由于易碎的压缩木条文件是可拆分的(2),因此您会使用快速压缩(默认)。 使用snappy而不是 ..
发布时间:2018-05-31 18:50:15 分布式计算/Hadoop

Avro v / s镶木地板

我打算为我的hadoop相关项目使用hadoop文件格式之一。我了解实木复合地板对于基于列的查询非常有效,而且对于全扫描或当我们需要所有列数据时都是有效的! 在我继续选择其中一种文件格式之前,我想先了解一个文件格式的缺点/缺点。任何人都可以用简单的方式向我解释它吗? 解决方案 如果你还没有决定, Avro模式为您的数据。完成之后,在Avro容器文件和Parquet文件之间进行选择就如同交换 ..
发布时间:2018-05-31 18:40:44 分布式计算/Hadoop

Json对象使用Java而不转换为AVRO的Parquet格式(不使用Spark,Hive,Pig,Impala)

我有一种方案可以将使用Java的Json对象的消息转换为Apache Parquet格式。任何示例代码或示例都会有所帮助。就我发现的将消息转换为Parquet而言,Hive,Pig,Spark正在被使用。我需要转换到Parquet而不涉及这些仅由Java。 解决方案 要将JSON数据文件转换为Parquet,内存表示。 Parquet没有自己的一组Java对象;相反,它会重用其他格式的对象 ..
发布时间:2018-05-31 18:35:16 Java开发

与其他格式相比,实木复合地板格式有哪些优缺点?

Apache Parquet的特点是: 自我描述 列式格式 与语言无关 与Avro,Sequence File,RC File等相比,的格式。我已阅读: Impala如何与Hadoop文件格式配合使用,它提供了关于格式的一些见解,但我想知道如何访问数据&数据存储以每种格式完成。 我认为我可以描述的主要区别与记录导向和列导向有关格式。面向记录的格式是我们都习惯的格式 - 文本文件,C ..
发布时间:2018-05-31 18:32:29 分布式计算/Hadoop

Spark的int96时间类型

当您在spark中创建时间戳列并保存到parquet时,您将获得一个12字节的整数列类型(int96);我收集的数据被分为6字节的朱利安日和6个字节的纳秒在一天内。 这不符合任何镶木地板逻辑类型。我们的问题是,Spark知道如何加载这样的一个字符串,然后把这个列指示为除整数之外的任何东西。 列作为时间戳而不是一个大整数? 解决方案 语义是基于元数据确定的。我们需要一些导入: ..
发布时间:2017-04-14 07:32:58 其他开发

星火拼花嵌套值压扁

我有拼花文件。我装使用Spark.And价值的一个关键嵌套,值对。我如何扁平化? df.printSchema 根 | - 位置:字符串(可为空=真) | - 属性:字符串(可为空=真) 得克萨斯州,{“关键”:{“KEY1”:“值1”,“KEY2”:“值2”}} 感谢, 解决方案 您可以使用 ..
发布时间:2016-05-22 16:39:37 其他开发

在查询记录镶木地板嵌套数组

我想不同的方式来查询记录的阵列内的记录并显示完整的行作为输出。 我不知道该嵌套的对象具有字符串“PG”。但我想特定对象上查询。是否该对象具有“PG”与否。如果再“PG”的存在,我想显示完整的行。如何写嵌套对象“星火SQL查询”没有specfying对象index.So我不想使用的索引children.name 我的Avro记录: { “名”:“父”, “类型”:“记录”, “田”: ..

在嵌入模式星火 - 用户/蜂巢/仓库未发现

我用在嵌入式本地模式的Apache的火花。我已经包括在我的的pom.xml 的和在同一个版本的所有依存关系(火花core_2.10,火花sql_2.10和火花hive_2.10)。 我只是想运行一个查询HiveQL创建一个表(存储为实木复合地板)。 运行下面的(很简单)code: 公共类应用{ 公共静态无效的主要(字串[] args)抛出IOException异常,ClassNotF ..
发布时间:2016-05-22 16:16:43 其他开发

星火DataFrames与实木复合地板和分区

我一直没能找到有关此主题的大量信息,但可以说我们使用了一个数据帧的拼花文件,是10块火花自然会创建10个分区阅读。但是,当数据框的文件来处理它读取,会不会是处理大量数据的分区比例,因为如果它是处理文件uncom pressed块大小将是更大意义上的分区将更大为好。 因此​​,让我澄清一下,实木复合地板融为一体pressed(这些数字并不完全准确)。 1GB PAR = 5块= 5个分区可能被D ..
发布时间:2016-05-22 16:16:23 其他开发

如何拼花文件分割成许多星火分区?

所以我刚才1拼花文件我与星火阅读(使用SQL的东西),我想它有100个分区进行处理。我试过设置 spark.default.parallelism 100,我们也试图改变实木复合地板的COM pression为none(从gzip的)。无论我们做什么火花工作的第一阶段只有一个分区(一次洗牌发生时被重新划分为100,其后明显的事情是非常非常快)。 现在根据几个来源(如下面)实木复合地板应为分割(即 ..
发布时间:2016-05-22 16:00:06 其他开发

如何读取星火嵌套集合

我有一列是一个木桌子 ,阵列<&结构LT; COL1,COL2,科隆... >> 可以通过侧面的语法运行对这个表查询的蜂巢。 如何阅读此表到RDD,更重要的是如何筛选,在星火地图等这集嵌套? 找不到星火文档中本的任何引用。感谢您的任何信息! PS。觉得可能是有益的给桌子上的一些统计数据。 在主桌〜600列数。行数〜200米。 “列”在嵌套的集数约10。嵌套收集记录平均数 ..
发布时间:2016-05-22 15:49:21 其他开发