orc - IT屋-程序员软件开发技术分享社区

Hive中“存储为输入格式、输出格式"和“存储为"的区别

在执行 show create table 然后执行结果 create table 语句(如果表是 ORC)时出现问题. 使用show create table，你会得到: 存储为输入格式‘org.apache.hadoop.hive.ql.io.orc.OrcInputFormat’输出格式‘org.apache.hadoop.hive.ql.io.orc.OrcOutputForm ..

发布时间：2021-12-28 23:37:37 hadoop hive hiveql orc hive-serde 其他开发

Parquet vs ORC vs ORC with Snappy

我正在对 Hive 可用的存储格式进行一些测试，并使用 Parquet 和 ORC 作为主要选项.我包括一次默认压缩的 ORC 和一次 Snappy. 我读过很多文档，说 Parquet 在时间/空间复杂度上比 ORC 更好，但我的测试与我浏览过的文档相反. 关注我的数据的一些细节. Table A- 文本文件格式- 2.5GB表 B - ORC - 652MB表 C - 带有 Sn ..

发布时间：2021-12-28 23:32:47 hadoop hive parquet snappy orc 其他开发

Hive 中的排序表(ORC 文件格式)

我在确保利用 Hive 表中的排序数据时遇到了一些困难.(使用ORC文件格式) 我知道我们可以通过在 create DDL 中声明 DISTRIBUTE BY 子句来影响从 Hive 表中读取数据的方式. CREATE TABLE 交易(贸易 ID INT，名称字符串，合同类型STRING，ts INT)由 (dt STRING) 分区CLUSTERED BY (trade_id) SOR ..

发布时间：2021-12-28 23:30:55 sorting hive orc 其他开发

在 Hive 2.2.0 上，我使用查询从另一个大小为 1.34 GB 的源表中填充一个 orc 表 INSERT INTO TABLE TableOrc SELECT * FROM Table;---- (1) 该查询创建了包含 6 个 orc 文件的 TableORC 表，这些文件远小于 256MB 的块大小. -- FolderList1-rwxr-xr-x user1 超级组 65. ..

发布时间：2021-12-28 23:29:28 hadoop hive hiveql orc hive-configuration 其他开发

如何将小的 ORC 文件合并或合并为较大的 ORC 文件?

SO 和网络上的大多数问题/答案讨论使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件，但是，我的 ORC 文件是按天分隔的日志文件，我需要将它们分开.我只想每天“汇总"ORC 文件(它们是 HDFS 中的目录). 我最有可能需要用 Java 编写解决方案并且遇到了 OrcFileMergeOperator 这可能是我需要使用的，但现在说还为时过早. 解决此问题的最佳方法是什 ..

发布时间：2021-12-28 23:15:36 java hive hdfs orc Java开发

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

我已经使用 orc 格式在 Hive 中保存了 json 数据帧 jsonDF.write.format("orc").saveAsTable(hiveExamples.jsonTest) 现在我需要在 HDFS 上将文件显示为普通文本.有没有办法做到这一点? 我使用了 hdfs dfs -text/path-of-table，但它以 ORC 格式显示数据. 解决方案在 lin ..

发布时间：2021-11-14 23:16:02 hadoop hive apache-spark-sql hdfs orc 其他开发

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

我已经使用 orc 格式在 Hive 中保存了 json 数据帧 jsonDF.write.format("orc").saveAsTable(hiveExamples.jsonTest) 现在我需要在 HDFS 上将文件显示为普通文本.有没有办法做到这一点? 我使用了 hdfs dfs -text/path-of-table，但它以 ORC 格式显示数据. 解决方案在 lin ..

发布时间：2021-11-14 23:12:56 hadoop hive apache-spark-sql hdfs orc 其他开发

如何在spark中读取orc事务hive表?

如何在spark中读取orc事务hive表? 我在通过 spark 读取 ORC 事务表时遇到问题我获得了 hive 表的架构但无法读取实际数据查看完整场景: hive>创建表 default.Hello(id int,name string) 聚类为(id) 分成 2 个存储为 ORC TBLPROPERTIES 的存储桶('交易'='真');蜂巢>插入 default.hell ..

发布时间：2021-11-14 22:59:57 apache-spark hive apache-spark-sql orc 其他开发

使用 Spark 将 CSV 转换为 ORC

我看过这篇博文Hortonworks 通过数据源支持 Spark 1.2 中的 ORC. 它涵盖了 1.2 版，并解决了从对象创建 ORC 文件的问题，而不是从 csv 到 ORC 的转换.我也看到了方法，正如预期的那样，在 Hive 中进行这些转换. 有人可以提供一个简单的示例，说明如何从 Spark 1.6+ 加载纯 csv 文件，将其另存为 ORC，然后将其作为数据帧加载到 Sp ..

发布时间：2021-11-14 21:58:01 apache-spark apache-spark-sql orc 其他开发

在 Spark 中使用自定义函数聚合多列

我想知道是否有某种方法可以为多列的火花数据帧指定自定义聚合函数. 我有一个这样的表格(名称、商品、价格): 约翰 |番茄|1.99约翰 |胡萝卜|0.45账单 |苹果|0.99约翰 |香蕉 |1.29账单 |炸玉米饼 |2.59 到: 我想将每个人的项目和成本汇总到一个列表中，如下所示: 约翰 |(番茄，1.99)，(胡萝卜，0.45)，(香蕉，1.29)账单 |(苹果，0.99 ..

发布时间：2021-11-14 21:49:45 scala apache-spark dataframe apache-spark-sql orc 其他开发

如何在 Spark 中创建 Schema 文件

我正在尝试读取一个架构文件(它是一个文本文件)并将其应用到我的 CSV 文件中，而没有标题.由于我已经有一个架构文件，我不想使用 InferSchema 选项，这是一个开销. 我的输入架构文件如下所示， "num IntegerType","letter StringType" 我正在尝试使用以下代码来创建架构文件， val schema_file = spark.read.textF ..

发布时间：2021-11-14 21:48:18 scala apache-spark-sql schema orc 其他开发

谓词下推究竟是如何工作的?

谁能用例子解释一下谓词下推到底是如何工作的? 解决方案说你要执行一个查询 SELECT总和(价格)来自销售在哪里'2018-01-01' 和 '2018-01-31' 之间的购买日期；查询引擎的一个非常简单的实现是遍历所有 parquet/orc 文件，反序列化 price 和 purchase_date 列，在上应用谓词purchase_date 并对过滤后的行求和. ..

发布时间：2021-06-14 19:24:08 hadoop parquet orc 其他开发

配置单元ORC上的Presto查询错误，无法从DOUBLE类型的ORC流中读取真实的SQL类型

我能够预先运行查询以从Hive ORC(snappy)表中读取非浮点列.但是，当我通过presto cli选择所有float数据类型列时，出现以下错误消息.除了将文件类型更改为targetHive表中的double之外，其他任何建议都是可行的选择 presto:sample>从emp_detail中选择*; 查询20200107_112537_00009_2zpay失败:打开Hive拆 ..

发布时间：2021-05-14 19:09:45 hive presto orc snappy 其他开发

动态分区CTAS

我想将包含文本格式的现有表更改为orc格式.我能够通过以下方式做到这一点:(1)以orc格式手动创建具有分区的表，然后，(2)使用INSERT OVERWRITE语句填充表. 我正在尝试为此使用CTAS(创建表... AS选择...)语句.有什么办法可以在CTAS语句中包括动态分区?因此，如果我的文本数据集具有多个分区(例如:年和月)，我可以直接在CTAS语句中指出吗? 格式可能是这样 ..

发布时间：2021-05-14 19:08:22 hive partition orc 其他开发

Hive中的排序表(ORC文件格式)

我在确保利用Hive表中的排序数据方面遇到一些困难.(使用ORC文件格式) 我了解我们可以通过在创建DDL中声明 DISTRIBUTE BY 子句来影响如何从Hive表中读取数据. CREATE TABLE交易(trade_id INT，名为STRING，contract_type STRING，ts INT)由(dt STRING)分区聚集者(trade_id)聚集者(trade_id ..

发布时间：2021-05-14 19:05:16 hive orc 其他开发

任何人都可以在c000.snappy.parquet或c000.snappy.orc中解释c000是什么意思吗?

我搜索了所有文档，但仍然找不到以下文件命名约定中为什么有前缀以及c000是什么的原因: 文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy.parquet 解决方案您应该使用“对话很便宜，请告诉我代码".方法.一切都没有记录在案，只有一种方法就是代码. ..

发布时间：2021-04-08 19:41:56 hadoop apache-spark hive parquet orc 其他开发

将DataFrame保存为CVS时出现Spark 2.0 DataSourceRegister配置错误

我正在尝试在Spark 2.0 Scala 2.11(从Spark 1.6迁移代码的过程)中将数据帧保存到cvs中. sparkSession.sql("SELECT * FROM myTable").合并(1).写.格式("com.databricks.spark.csv").option("header"，"true").保存(config.resultLayer) spark会话是否 ..

发布时间：2021-04-08 19:40:43 scala csv apache-spark dataframe orc 其他开发

有没有一种方法可以在不使用ALTER TABLE CONCATENATE命令的情况下在HDFS中合并ORC文件?

这是我与Hive和HDFS在一起的第一周，所以请多多包涵. 到目前为止，我看到的几乎所有合并多个ORC文件的方式都建议将ALTER TABLE与CONCATENATE命令一起使用. 但是我需要合并同一表的多个ORC文件，而不必ALTER该表.另一种选择是创建现有表的副本，然后在该表上使用ALTER TABLE，这样我的原始表将保持不变.但是由于空间和数据冗余的原因，我也无法做到这一点. ..

发布时间：2020-11-22 19:23:59 hive hdfs orc 其他开发

将文本加载到Orc文件

如何将文本文件加载到Hive orc外部表中? create table MyDB.TEST ( Col1 String, Col2 String, Col3 String, Col4 String) STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT ..

发布时间：2020-11-22 02:51:40 hadoop hive orc 其他开发

Hive更改表<表名>串联工作?

我有n(large)个小尺寸的兽人文件，我想合并为k(small)个大的兽人文件. 这是使用Hive中的alter table table_name concatenate命令完成的. 我想了解Hive如何实现这一点. 我希望使用Spark进行此操作，并根据需要进行任何更改. 任何指针都很棒. 解决方案按照如果表或分区包含许多小的RCFiles或ORC文件，则上述命令会 ..

发布时间：2020-11-22 02:03:50 hadoop hive hiveql orc 其他开发

orc相关内容

Hive中“存储为输入格式、输出格式"和“存储为"的区别

Parquet vs ORC vs ORC with Snappy

Hive 中的排序表(ORC 文件格式)

Hive:合并配置设置不起作用

如何将小的 ORC 文件合并或合并为较大的 ORC 文件?

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

如何在spark中读取orc事务hive表?

使用 Spark 将 CSV 转换为 ORC

在 Spark 中使用自定义函数聚合多列

如何在 Spark 中创建 Schema 文件

谓词下推究竟是如何工作的?

配置单元ORC上的Presto查询错误，无法从DOUBLE类型的ORC流中读取真实的SQL类型

动态分区CTAS

Hive中的排序表(ORC文件格式)

任何人都可以在c000.snappy.parquet或c000.snappy.orc中解释c000是什么意思吗?

将DataFrame保存为CVS时出现Spark 2.0 DataSourceRegister配置错误

有没有一种方法可以在不使用ALTER TABLE CONCATENATE命令的情况下在HDFS中合并ORC文件?

将文本加载到Orc文件

Hive更改表<表名>串联工作?