orc相关内容

Parquet vs ORC vs ORC with Snappy

我正在对 Hive 可用的存储格式进行一些测试,并使用 Parquet 和 ORC 作为主要选项.我包括一次默认压缩的 ORC 和一次 Snappy. 我读过很多文档,说 Parquet 在时间/空间复杂度上比 ORC 更好,但我的测试与我浏览过的文档相反. 关注我的数据的一些细节. Table A- 文本文件格式- 2.5GB表 B - ORC - 652MB表 C - 带有 Sn ..
发布时间:2021-12-28 23:32:47 其他开发

Hive 中的排序表(ORC 文件格式)

我在确保利用 Hive 表中的排序数据时遇到了一些困难.(使用ORC文件格式) 我知道我们可以通过在 create DDL 中声明 DISTRIBUTE BY 子句来影响从 Hive 表中读取数据的方式. CREATE TABLE 交易(贸易 ID INT,名称字符串,合同类型STRING,ts INT)由 (dt STRING) 分区CLUSTERED BY (trade_id) SOR ..
发布时间:2021-12-28 23:30:55 其他开发

Hive:合并配置设置不起作用

在 Hive 2.2.0 上,我使用查询从另一个大小为 1.34 GB 的源表中填充一个 orc 表 INSERT INTO TABLE TableOrc SELECT * FROM Table;---- (1) 该查询创建了包含 6 个 orc 文件的 TableORC 表,这些文件远小于 256MB 的块大小. -- FolderList1-rwxr-xr-x user1 超级组 65. ..
发布时间:2021-12-28 23:29:28 其他开发

如何将小的 ORC 文件合并或合并为较大的 ORC 文件?

SO 和网络上的大多数问题/答案讨论使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件,但是,我的 ORC 文件是按天分隔的日志文件,我需要将它们分开.我只想每天“汇总"ORC 文件(它们是 HDFS 中的目录). 我最有可能需要用 Java 编写解决方案并且遇到了 OrcFileMergeOperator 这可能是我需要使用的,但现在说还为时过早. 解决此问题的最佳方法是什 ..
发布时间:2021-12-28 23:15:36 Java开发

如何在spark中读取orc事务hive表?

如何在spark中读取orc事务hive表? 我在通过 spark 读取 ORC 事务表时遇到问题我获得了 hive 表的架构但无法读取实际数据 查看完整场景: hive>创建表 default.Hello(id int,name string) 聚类为(id) 分成 2 个存储为 ORC TBLPROPERTIES 的存储桶('交易'='真');蜂巢>插入 default.hell ..
发布时间:2021-11-14 22:59:57 其他开发

使用 Spark 将 CSV 转换为 ORC

我看过这篇博文Hortonworks 通过数据源支持 Spark 1.2 中的 ORC. 它涵盖了 1.2 版,并解决了从对象创建 ORC 文件的问题,而不是从 csv 到 ORC 的转换.我也看到了方法,正如预期的那样,在 Hive 中进行这些转换. 有人可以提供一个简单的示例,说明如何从 Spark 1.6+ 加载纯 csv 文件,将其另存为 ORC,然后将其作为数据帧加载到 Sp ..
发布时间:2021-11-14 21:58:01 其他开发

在 Spark 中使用自定义函数聚合多列

我想知道是否有某种方法可以为多列的火花数据帧指定自定义聚合函数. 我有一个这样的表格(名称、商品、价格): 约翰 |番茄|1.99约翰 |胡萝卜|0.45账单 |苹果|0.99约翰 |香蕉 |1.29账单 |炸玉米饼 |2.59 到: 我想将每个人的项目和成本汇总到一个列表中,如下所示: 约翰 |(番茄,1.99),(胡萝卜,0.45),(香蕉,1.29)账单 |(苹果,0.99 ..
发布时间:2021-11-14 21:49:45 其他开发

如何在 Spark 中创建 Schema 文件

我正在尝试读取一个架构文件(它是一个文本文件)并将其应用到我的 CSV 文件中,而没有标题.由于我已经有一个架构文件,我不想使用 InferSchema 选项,这是一个开销. 我的输入架构文件如下所示, "num IntegerType","letter StringType" 我正在尝试使用以下代码来创建架构文件, val schema_file = spark.read.textF ..
发布时间:2021-11-14 21:48:18 其他开发

谓词下推究竟是如何工作的?

谁能用例子解释一下谓​​词下推到底是如何工作的? 解决方案 说你要执行一个查询 SELECT总和(价格)来自销售在哪里'2018-01-01' 和 '2018-01-31' 之间的购买日期; 查询引擎的一个非常简单的实现是遍历所有 parquet/orc 文件,反序列化 price 和 purchase_date 列,在 上应用谓词purchase_date 并对过滤后的行求和. ..
发布时间:2021-06-14 19:24:08 其他开发

配置单元ORC上的Presto查询错误,无法从DOUBLE类型的ORC流中读取真实的SQL类型

我能够预先运行查询以从Hive ORC(snappy)表中读取非浮点列.但是,当我通过presto cli选择所有float数据类型列时,出现以下错误消息.除了将文件类型更改为targetHive表中的double之外,其他任何建议都是可行的选择 presto:sample>从emp_detail中选择*; 查询20200107_112537_00009_2zpay失败:打开Hive拆 ..
发布时间:2021-05-14 19:09:45 其他开发

动态分区CTAS

我想将包含文本格式的现有表更改为orc格式.我能够通过以下方式做到这一点:(1)以orc格式手动创建具有分区的表,然后,(2)使用INSERT OVERWRITE语句填充表. 我正在尝试为此使用CTAS(创建表... AS选择...)语句.有什么办法可以在CTAS语句中包括动态分区?因此,如果我的文本数据集具有多个分区(例如:年和月),我可以直接在CTAS语句中指出吗? 格式可能是这样 ..
发布时间:2021-05-14 19:08:22 其他开发

Hive中的排序表(ORC文件格式)

我在确保利用Hive表中的排序数据方面遇到一些困难.(使用ORC文件格式) 我了解我们可以通过在创建DDL中声明 DISTRIBUTE BY 子句来影响如何从Hive表中读取数据. CREATE TABLE交易(trade_id INT,名为STRING,contract_type STRING,ts INT)由(dt STRING)分区聚集者(trade_id)聚集者(trade_id ..
发布时间:2021-05-14 19:05:16 其他开发

任何人都可以在c000.snappy.parquet或c000.snappy.orc中解释c000是什么意思吗?

我搜索了所有文档,但仍然找不到以下文件命名约定中为什么有前缀以及c000是什么的原因: 文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy.parquet 解决方案 您应该使用“对话很便宜,请告诉我代码".方法.一切都没有记录在案,只有一种方法就是代码. ..
发布时间:2021-04-08 19:41:56 其他开发

有没有一种方法可以在不使用ALTER TABLE CONCATENATE命令的情况下在HDFS中合并ORC文件?

这是我与Hive和HDFS在一起的第一周,所以请多多包涵. 到目前为止,我看到的几乎所有合并多个ORC文件的方式都建议将ALTER TABLE与CONCATENATE命令一起使用. 但是我需要合并同一表的多个ORC文件,而不必ALTER该表.另一种选择是创建现有表的副本,然后在该表上使用ALTER TABLE,这样我的原始表将保持不变.但是由于空间和数据冗余的原因,我也无法做到这一点. ..
发布时间:2020-11-22 19:23:59 其他开发

将文本加载到Orc文件

如何将文本文件加载到Hive orc外部表中? create table MyDB.TEST ( Col1 String, Col2 String, Col3 String, Col4 String) STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT ..
发布时间:2020-11-22 02:51:40 其他开发

Hive更改表<表名>串联工作?

我有n(large)个小尺寸的兽人文件,我想合并为k(small)个大的兽人文件. 这是使用Hive中的alter table table_name concatenate命令完成的. 我想了解Hive如何实现这一点. 我希望使用Spark进行此操作,并根据需要进行任何更改. 任何指针都很棒. 解决方案 按照如果表或分区包含许多小的RCFiles或ORC文件,则上述命令会 ..
发布时间:2020-11-22 02:03:50 其他开发