hive-metastore相关内容

用于左连接的蜂窝偏斜缓解

我有一个典型的影响左外部联接性能的不对称问题(左表很大,右表很小)。不对称的密钥主要是空的(很长一段时间),其次是&键X和键。 我尝试了几种不同的方法: 在偏斜的键上添加连接谓词";is Not Null";似乎没有任何明显的影响。此外,我还需要处理 我使用hive.Optimize.skewJoin的结果好坏参半 我在几篇文章中提到的关键腌制技术非常有效(速度快3 ..
发布时间:2022-04-04 20:04:53 其他开发

如何在蜂巢中以驼峰式命名保留列名

选择“12345"作为“EmpId"; -- 输出为 empid,值为 12345 是否有任何线索使列名与 EmpId 保持相同? 解决方案 不可能.这是 HIVE Metastore 的限制.它以全小写形式存储表的模式. Hive 使用这种方法来规范化列名,参见 Table.java private static String normalize(String col ..
发布时间:2021-12-28 23:50:53 其他开发

Hive 数据存储在哪里?

我对 hive 在哪里存储数据感到有些困惑. 它是将数据存储在 HDFS 还是 RDBMS 中?Hive Meta store 是否使用 RDBMS 来存储 hive 表的元数据?? 提前致谢!! 解决方案 Hive 数据存储在 之一中Hadoop 兼容文件系统:S3、HDFS 或其他兼容文件系统. Hive 元数据像 MySQL 一样存储在 RDBMS 中,参见 支持的 ..
发布时间:2021-12-28 23:41:28 其他开发

我们能否提取通过元数据在蜂巢上运行的查询

基本上,我希望一天之内在配置单元上运行的查询的元数据.我研究了Hive在MySql中提供的元数据.但是找不到任何存储查询相关信息的表. 解决方案 进行了一些研究后发现,我们可以使用用于Hadoop的History Server REST API提取MapReduce作业. 然后,您将获得与Job相关的信息. 要获取查询,您需要请求特定作业的配置文件 ..
发布时间:2021-05-14 19:08:52 其他开发

我们可以预测Hive SELECT *查询结果的顺序吗?

如果使用相同的DBMS作为Metastore,那么 SELECT *查询(无ORDER BY)的结果的顺序是否可能始终相同? 因此,只要将MySQL用作Metastore, SELECT *; 查询的结果顺序将始终相同.如果使用Postgres,则在相同数据上的顺序将始终相同,但与使用MySQL时的顺序不同.我正在谈论相同的数据. 也许所有这些都归结为以下问题:默认结果的顺序是什么,以 ..
发布时间:2021-05-14 19:08:15 其他开发

为Presto和AWS S3设置独立的Hive Metastore服务

我的工作环境是将S3服务用作数据湖,而没有AWS Athena.我正在尝试设置Presto以能够查询S3中的数据,并且我知道我需要通过Hive Metastore服务将数据结构定义为Hive表.我正在Docker中部署每个组件,所以我想使容器的尺寸尽可能的小.仅需要运行Metastore服务,我需要Hive的哪些组件?我实际上并不真正在乎运行Hive,而只是在关心Metastore.我可以减少所需 ..
发布时间:2021-05-14 19:05:52 其他开发

无法将表格保存到Hive Metastore,HDP 3.0

我无法再使用metastore将表保存到配置单元数据库.我使用 spark.sql 看到了spark中的表,但是在蜂巢数据库中看不到相同的表.我试过了,但它没有将表格存储为配置单元.如何配置Hive Metastore?spark版本是2.3.1. 如果您想了解更多详细信息,请发表评论. %spark导入org.apache.spark.sql.SparkSessionval spark ..
发布时间:2021-04-08 20:11:30 其他开发

如何在蜂巢中的驼峰式情况下保留列名

选择"12345"作为"EmpId"; -输出的是空值12345 任何人都可以保持与EmpId相同的列名吗? 解决方案 不可能.这是HIVE metastore的局限性.它以小写形式存储表的架构. Hive使用此方法来规范化列名,请参见private static String normalize(String colName) throws HiveException ..
发布时间:2020-11-23 18:38:08 其他开发

在不同组中的数据类型之间进行比较时,如何处理潜在的数据丢失

背景: 我们小组正在将Cloudera升级到6.1.1,我的任务是确定如何处理跨数据类型的隐式数据类型转换的损失。有关相关的发行说明的详细信息,请参见下面的链接。 https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_611_incompatible_changes.html#hiv ..
发布时间:2020-10-03 00:26:30 其他开发

如何比较具有不同数据类型组的两列

这是我昨天提出的问题的扩展:在不同组中对数据类型进行比较时,如何处理潜在的数据丢失 在HIVE中,是否可能在 SELECT 子句内联的不同数据类型组中的两列之间执行比较?我首先需要确定每列的传入元数据是什么,然后提供选择要使用的 CAST 的逻辑。 CASE 当Column1 Column2 THEN 0-如果数据类型在不同的数据类型组中(即BIGINT STRIN ..
发布时间:2020-10-03 00:26:13 其他开发

是否可以在HIVE中更改分区元数据?

这是我之前提出的问题的扩展:如何比较具有不同数据类型组的两列 我们正在探索更改表中元数据的想法,而不是执行CAST操作SELECT语句中的数据。更改MySQL Metastore中的元数据非常容易。但是,是否有可能将元数据更改应用于分区(它们是每天的)?否则,当历史记录为STRING时,我们可能会陷入当前和将来的数据类型为BIGINT的问题。 问题:是否可以在HIVE中更改分区元数据? ..
发布时间:2020-10-03 00:24:37 其他开发

是否可以更改Hive中分区表上的列的元数据?

这是我之前提出的问题的扩展:可以在HIVE中更改分区元数据吗? 我们正在探索更改表上元数据的想法,而不是对表上执行CAST操作。 SELECT语句中的数据。更改MySQL Metastore中的元数据非常容易。但是,是否有可能将元数据更改应用于分区表(每天)上的列?注意:该列本身不是分区列。这是一个简单的ID字段,已从STRING更改为BIGINT。 否则,当历史记录为STRING时, ..
发布时间:2020-10-03 00:20:38 其他开发

与直接连接到db和retreive数据相比,搜寻器有何优势?

在AWS Glue作业中,为了从DB或S3检索数据,我们可以使用2种方法. 1)使用抓取工具2)使用直接连接到DB或S3. 所以我的问题是:爬网程序比直接连接到数据库并检索数据要好得多吗? 解决方案 AWS Glue Crawlers不会检索实际数据.抓取工具访问您的数据存储,并按优先级排序分类列表进行操作,以提取数据的架构和其他统计信息,然后使用此元数据填充 Glue数据目录.可以 ..
发布时间:2020-09-15 19:15:36 其他开发