hive相关内容

Hive NVL 不适用于列的 Date 类型 - NullpointerException

我在 HDFS 上使用 MapR Hive 发行版并面临以下问题.如果表的列类型是“日期"类型,则 NVL 功能不起作用.这同样适用于其他数据类型. 它只是抛出 NullpointerException:Null 即使是解释函数也会抛出同样的异常. 请在这里提供帮助.是 Hive 发行版中的错误吗? 解决方案 我自己解决了这个问题: 对于日期类型,您可以使用 hive ..
发布时间:2022-01-05 21:26:51 Java开发

实时查询/聚合数百万条记录 - hadoop?数据库?卡桑德拉?

我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,而且我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的 CPU,我的结果应该会立即返回.因此,任何帮助将不胜感激.谢谢! 这是我所拥有的: 1000 个数据集 数据集键: 所有数据集都具有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集 ..
发布时间:2021-12-31 18:07:33 其他开发

Spark 2.x 上的 Cloudera Hive?

看看这个: https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html#hive_on_spark 总而言之,它说 Hive 不适用于 Cloudera 中的 Spark 2.x. 但是,我假设 Hive 确实在其他发行版中的 Spark 2.x 上运行.有没有人配置 C ..
发布时间:2021-12-29 00:01:07 其他开发

比较配置单元中具有相同结构的两个表之间的数据

如何比较hive中具有相同结构的两个表.我相信减号在蜂巢中不起作用. SRC 表: id 名称1 安2 乙3 C TGT 表: 身份证名称 1 A2 C3 C 谁能帮我查询. 解决方案 如果您正在寻找两个表之间的相等性和差异(如果有),您可以按照以下操作 SELECT MIN(TableName) as TableName, ID, NAME从(SELECT 'S ..
发布时间:2021-12-29 00:00:51 其他开发

Hive 外部表与内部表命令

假设我有这两个表: 外部: 创建外部表 emp_feedback (emp_id 整数,emp_name 字符串)LOCATION '/user/hive/warehouse/mydb.db/contacts'; 内部: 创建表 emp_feedback (emp_id 整数,emp_name 字符串)加载数据输入路径 'file_location_of_csv' 到表 emp_fee ..
发布时间:2021-12-29 00:00:43 其他开发

如何在 HIVE 中将日期 2017-sep-12 转换为 2017-09-12

我在转换 hive 中的日期时遇到了一个问题.我需要将 2017-sep-12 转换为 2017-09-12 .我怎样才能在 HIVE 中实现这一点 解决方案 使用 unix_timestamp(string date, string pattern) 将给定的日期格式转换为从 1970-01-01 过去的秒数.然后使用 from_unixtime() 转换为给定的格式: hive>se ..
发布时间:2021-12-29 00:00:35 其他开发

蜂巢左外连接长期运行

Hortonworks HDP 2.3.0 - Hive 0.14 Table T1(在 col1 上分区,无桶,ORC) app 1.2 亿行 &6GB 数据大小Table T2(col2 上的分区,无桶,ORC) app 200 M 行 &6MB 数据大小 T1 左外连接 t2 ( t1.col3 = t2.col3 ) 上述查询在 tez 和 tez 的最后一个减速器阶段长时间运行 ..
发布时间:2021-12-29 00:00:26 其他开发

在 Spark 中提取配置单元表分区 - java

Spark 有没有办法只提取分区列名?我使用的解决方法是使用 HiveContext 运行“show extended table like table_name" 解决方案 您可以使用 class HiveMetaStoreClient 直接从 HiveMetaStore 查询. 这个类也被流行的 APIS 广泛使用,用于与HiveMetaStore 例如:Apache Drill ..
发布时间:2021-12-29 00:00:07 其他开发

HIVE 用正则表达式选择列名?

我想知道是否可以查询hive ith term rehiliare selection 中的列是否可以用于某些描述的起始列? 示例:带有此列名称列表的表模式1 模式2 主题3 balab1 balabal2 ma1 ma2 ma3 select(选择列初学者的表达式)来自表 谢谢 解决方案 我相信您希望根据正则表达式选择列. 以下有效: 设置 hive.supp ..
发布时间:2021-12-28 23:59:40 其他开发

Spark 是否支持子查询?

当我运行这个查询时,我遇到了这种类型的错误 select * from raw_2 where ip NOT IN (select * from raw_1); org.apache.spark.sql.AnalysisException: 查询中不支持的语言功能: select * from raw_2 where ip NOT IN (select * from raw_1)T ..
发布时间:2021-12-28 23:59:30 其他开发

如何使用python pyhs2连接到hive?

我正在尝试使用 pyhs2 访问 hive.我尝试了以下代码: example.py 导入pyhs2conn = pyhs2.connect(host='localhost', port=10000,authMechanism=None, user=None, password=None,database='default')使用 conn.cursor() 作为 cur:cur.exec ..
发布时间:2021-12-28 23:59:23 Python

Hive/Hadoop 中的唯一密钥生成

在从大数据蜂巢表中选择一组记录时,需要为每条记录创建一个唯一的键.在顺序操作模式下,很容易通过调用像 max(id) 这样的 soem 来生成唯一的 id.由于 hive 并行运行任务,我们如何在不影响 hadoop 性能的情况下生成唯一键作为选择查询的一部分.这真的是一个 map reduce 问题还是我们需要采用顺序方法来解决这个问题. 解决方案 如果由于某种原因你不想处理 UUID, ..
发布时间:2021-12-28 23:59:14 Java开发

如何从 hive cli 将 hive sql 查询作为 mr 作业提交

我已经部署了一个 CDH-5.9 集群,使用 MR 作为 hive 执行引擎.我有一个名为“users"的配置单元表,有 50 行.每当我执行查询 select * from users 工作正常如下: hive>从用户中选择*;行亚当 1 38 ATK093 厨师本杰明 2 24 ATK032 仆人查尔斯 3 45 ATK107 收银员常春藤 4 30 ATK384 仆人琳达 5 23 ATK ..
发布时间:2021-12-28 23:58:54 其他开发

从 Scala (shark-shell) 访问 Shark 表 (Hive)

我有在 hive-0.9.0 上运行的 shark-0.8.0.我可以通过调用 shark 在 Hive 上编程.我创建了几个表并加载了数据. 现在,我正在尝试使用 Scala 访问这些表中的数据.我使用 shark-shell 调用了 Scala shell.但是当我尝试选择时,我收到了表格不存在的错误. scala>val 艺术家 = sc.sql2rdd("从 default.las ..
发布时间:2021-12-28 23:58:47 其他开发