hive-metastore相关内容
我有一个典型的影响左外部联接性能的不对称问题(左表很大,右表很小)。不对称的密钥主要是空的(很长一段时间),其次是&键X和键。 我尝试了几种不同的方法: 在偏斜的键上添加连接谓词";is Not Null";似乎没有任何明显的影响。此外,我还需要处理 我使用hive.Optimize.skewJoin的结果好坏参半 我在几篇文章中提到的关键腌制技术非常有效(速度快3
..
选择“12345"作为“EmpId"; -- 输出为 empid,值为 12345 是否有任何线索使列名与 EmpId 保持相同? 解决方案 不可能.这是 HIVE Metastore 的限制.它以全小写形式存储表的模式. Hive 使用这种方法来规范化列名,参见 Table.java private static String normalize(String col
..
我对 hive 在哪里存储数据感到有些困惑. 它是将数据存储在 HDFS 还是 RDBMS 中?Hive Meta store 是否使用 RDBMS 来存储 hive 表的元数据?? 提前致谢!! 解决方案 Hive 数据存储在 之一中Hadoop 兼容文件系统:S3、HDFS 或其他兼容文件系统. Hive 元数据像 MySQL 一样存储在 RDBMS 中,参见 支持的
..
我已按照链接中的说明配置了我的 Hive:http://www.youtube.com/watch?v=Dqo1ahdBK_A,但在 Hive 中创建表时出现以下错误.我正在使用 hadoop-1.2.1 和 hive-0.12.0. hive>创建表员工(emp_id int,name string,salary double);失败:执行错误,从 org.apache.hadoop.hive
..
如何使用无头 (https) 在 HDP 3.1 上配置 Spark 3.x://spark.apache.org/docs/latest/hadoop-provided.html) 与 hive 交互的 spark 版本? 首先,我已经下载并解压了 headless spark 3.x: cd ~/development/software/spark-3.0.0-bin-without-
..
我是 Spark 的新手.我想将数据帧数据写入 hive 表.Hive 表在多个列上进行分区.通过 Hivemetastore 客户端,我正在获取分区列,并将其作为一个变量在数据帧的 write 方法中的 partitionby 子句中传递. var1="country","state" (获取hive表的分区列名)dataframe1.write.partitionBy(s"$var1").m
..
基本上,我希望一天之内在配置单元上运行的查询的元数据.我研究了Hive在MySql中提供的元数据.但是找不到任何存储查询相关信息的表. 解决方案 进行了一些研究后发现,我们可以使用用于Hadoop的History Server REST API提取MapReduce作业. 然后,您将获得与Job相关的信息. 要获取查询,您需要请求特定作业的配置文件
..
如果使用相同的DBMS作为Metastore,那么 SELECT *查询(无ORDER BY)的结果的顺序是否可能始终相同? 因此,只要将MySQL用作Metastore, SELECT *; 查询的结果顺序将始终相同.如果使用Postgres,则在相同数据上的顺序将始终相同,但与使用MySQL时的顺序不同.我正在谈论相同的数据. 也许所有这些都归结为以下问题:默认结果的顺序是什么,以
..
我的工作环境是将S3服务用作数据湖,而没有AWS Athena.我正在尝试设置Presto以能够查询S3中的数据,并且我知道我需要通过Hive Metastore服务将数据结构定义为Hive表.我正在Docker中部署每个组件,所以我想使容器的尺寸尽可能的小.仅需要运行Metastore服务,我需要Hive的哪些组件?我实际上并不真正在乎运行Hive,而只是在关心Metastore.我可以减少所需
..
我对配置单元在哪里存储数据感到困惑. 它将数据存储在HDFS还是RDBMS中?Hive Meta存储是否使用RDBMS存储Hive表元数据?? 预先感谢! 解决方案 配置单元数据存储在
..
运行spark-shell时出现错误 使用Spark的默认log4j配置文件:org/apache/spark/log4j-defaults.properties将默认日志级别设置为"WARN".要调整日志记录级别,请使用sc.setLogLevel(newLevel).对于SparkR,请使用setLogLevel(newLevel).18/01/30 18:22:27 WARN Native
..
我无法再使用metastore将表保存到配置单元数据库.我使用 spark.sql 看到了spark中的表,但是在蜂巢数据库中看不到相同的表.我试过了,但它没有将表格存储为配置单元.如何配置Hive Metastore?spark版本是2.3.1. 如果您想了解更多详细信息,请发表评论. %spark导入org.apache.spark.sql.SparkSessionval spark
..
如何使用无头( https可以与蜂巢互动的http://spark.apache.org/docs/latest/hadoop-provided.html )版本? 首先,我下载并解压缩了无头星火3.x: cd ~/development/software/spark-3.0.0-bin-without-hadoop export HADOOP_CONF_DIR=/etc/hadoop
..
选择"12345"作为"EmpId"; -输出的是空值12345 任何人都可以保持与EmpId相同的列名吗? 解决方案 不可能.这是HIVE metastore的局限性.它以小写形式存储表的架构. Hive使用此方法来规范化列名,请参见private static String normalize(String colName) throws HiveException
..
背景: 我们小组正在将Cloudera升级到6.1.1,我的任务是确定如何处理跨数据类型的隐式数据类型转换的损失。有关相关的发行说明的详细信息,请参见下面的链接。 https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_611_incompatible_changes.html#hiv
..
这是我昨天提出的问题的扩展:在不同组中对数据类型进行比较时,如何处理潜在的数据丢失 在HIVE中,是否可能在 SELECT 子句内联的不同数据类型组中的两列之间执行比较?我首先需要确定每列的传入元数据是什么,然后提供选择要使用的 CAST 的逻辑。 CASE 当Column1 Column2 THEN 0-如果数据类型在不同的数据类型组中(即BIGINT STRIN
..
这是我之前提出的问题的扩展:如何比较具有不同数据类型组的两列 我们正在探索更改表中元数据的想法,而不是执行CAST操作SELECT语句中的数据。更改MySQL Metastore中的元数据非常容易。但是,是否有可能将元数据更改应用于分区(它们是每天的)?否则,当历史记录为STRING时,我们可能会陷入当前和将来的数据类型为BIGINT的问题。 问题:是否可以在HIVE中更改分区元数据?
..
这是我之前提出的问题的扩展:可以在HIVE中更改分区元数据吗? 我们正在探索更改表上元数据的想法,而不是对表上执行CAST操作。 SELECT语句中的数据。更改MySQL Metastore中的元数据非常容易。但是,是否有可能将元数据更改应用于分区表(每天)上的列?注意:该列本身不是分区列。这是一个简单的ID字段,已从STRING更改为BIGINT。 否则,当历史记录为STRING时,
..
在AWS Glue作业中,为了从DB或S3检索数据,我们可以使用2种方法. 1)使用抓取工具2)使用直接连接到DB或S3. 所以我的问题是:爬网程序比直接连接到数据库并检索数据要好得多吗? 解决方案 AWS Glue Crawlers不会检索实际数据.抓取工具访问您的数据存储,并按优先级排序分类列表进行操作,以提取数据的架构和其他统计信息,然后使用此元数据填充 Glue数据目录.可以
..
我是Spark的新手.我想将dataframe数据写入hive表.蜂巢表在多个列上分区.通过Hivemetastore客户端,我正在获取分区列,并将其作为变量传递给dataframe的write方法中的partitionby子句中. var1="country","state" (Getting the partiton column names of hive table) datafra
..