hive相关内容
我在 HDFS 上使用 MapR Hive 发行版并面临以下问题.如果表的列类型是“日期"类型,则 NVL 功能不起作用.这同样适用于其他数据类型. 它只是抛出 NullpointerException:Null 即使是解释函数也会抛出同样的异常. 请在这里提供帮助.是 Hive 发行版中的错误吗? 解决方案 我自己解决了这个问题: 对于日期类型,您可以使用 hive
..
我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,而且我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的 CPU,我的结果应该会立即返回.因此,任何帮助将不胜感激.谢谢! 这是我所拥有的: 1000 个数据集 数据集键: 所有数据集都具有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集
..
看看这个: https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html#hive_on_spark 总而言之,它说 Hive 不适用于 Cloudera 中的 Spark 2.x. 但是,我假设 Hive 确实在其他发行版中的 Spark 2.x 上运行.有没有人配置 C
..
我需要一个难以弄清楚的 hive 查询. 我有一个如下所示的时间序列: 时间源 word1 word2 ...etc2012-02-01 23:43:16.9988243 0001 2B3B FAF02012-02-01 23:43:16.9993561 0002 2326 ABAA2012-02-01 23:43:16.9998879 0002 2327 ABAA 我需要这样一个查询,
..
如何比较hive中具有相同结构的两个表.我相信减号在蜂巢中不起作用. SRC 表: id 名称1 安2 乙3 C TGT 表: 身份证名称 1 A2 C3 C 谁能帮我查询. 解决方案 如果您正在寻找两个表之间的相等性和差异(如果有),您可以按照以下操作 SELECT MIN(TableName) as TableName, ID, NAME从(SELECT 'S
..
假设我有这两个表: 外部: 创建外部表 emp_feedback (emp_id 整数,emp_name 字符串)LOCATION '/user/hive/warehouse/mydb.db/contacts'; 内部: 创建表 emp_feedback (emp_id 整数,emp_name 字符串)加载数据输入路径 'file_location_of_csv' 到表 emp_fee
..
我在转换 hive 中的日期时遇到了一个问题.我需要将 2017-sep-12 转换为 2017-09-12 .我怎样才能在 HIVE 中实现这一点 解决方案 使用 unix_timestamp(string date, string pattern) 将给定的日期格式转换为从 1970-01-01 过去的秒数.然后使用 from_unixtime() 转换为给定的格式: hive>se
..
Hortonworks HDP 2.3.0 - Hive 0.14 Table T1(在 col1 上分区,无桶,ORC) app 1.2 亿行 &6GB 数据大小Table T2(col2 上的分区,无桶,ORC) app 200 M 行 &6MB 数据大小 T1 左外连接 t2 ( t1.col3 = t2.col3 ) 上述查询在 tez 和 tez 的最后一个减速器阶段长时间运行
..
我想将xml数据存储到hive表中,XML数据: 1266/: 61%used(9714MB/15975MB) (/磁盘使用情况zabb
..
Spark 有没有办法只提取分区列名?我使用的解决方法是使用 HiveContext 运行“show extended table like table_name" 解决方案 您可以使用 class HiveMetaStoreClient 直接从 HiveMetaStore 查询. 这个类也被流行的 APIS 广泛使用,用于与HiveMetaStore 例如:Apache Drill
..
我有一个 bash 脚本,如下所示.在 table 变量附近我想在我的脚本中使用反引号. #!/bin/bash[ $# -ne 2 ] &&{ echo "用法:$0 数据库表";出口1;}数据库=$1表=$2hive -e "alter table ${database}.`${table}` SET TBLPROPERTIES('EXTERNAL'='FALSE')" 上面的脚本给了我下
..
我经常有一大块 HiveQL,我想对某些变量使用不同的设置多次运行. 一个简单的例子是: set mindate='2015-01-01 00:00:00'设置 maxdate='2015-04-01 00:00:00'select * from my_table where the_date介于 ${hiveconf:mindate} 和 ${hiveconf:maxdate} 之间
..
我想知道是否可以查询hive ith term rehiliare selection 中的列是否可以用于某些描述的起始列? 示例:带有此列名称列表的表模式1 模式2 主题3 balab1 balabal2 ma1 ma2 ma3 select(选择列初学者的表达式)来自表 谢谢 解决方案 我相信您希望根据正则表达式选择列. 以下有效: 设置 hive.supp
..
当我运行这个查询时,我遇到了这种类型的错误 select * from raw_2 where ip NOT IN (select * from raw_1); org.apache.spark.sql.AnalysisException: 查询中不支持的语言功能: select * from raw_2 where ip NOT IN (select * from raw_1)T
..
我正在尝试使用 pyhs2 访问 hive.我尝试了以下代码: example.py 导入pyhs2conn = pyhs2.connect(host='localhost', port=10000,authMechanism=None, user=None, password=None,database='default')使用 conn.cursor() 作为 cur:cur.exec
..
在从大数据蜂巢表中选择一组记录时,需要为每条记录创建一个唯一的键.在顺序操作模式下,很容易通过调用像 max(id) 这样的 soem 来生成唯一的 id.由于 hive 并行运行任务,我们如何在不影响 hadoop 性能的情况下生成唯一键作为选择查询的一部分.这真的是一个 map reduce 问题还是我们需要采用顺序方法来解决这个问题. 解决方案 如果由于某种原因你不想处理 UUID,
..
我有一个类似的问题,比如 这个一个 以下是我使用的: CDH4.4 (hive 0.10) protobuf-java-.2.4.1.jar elephant-bird-hive-4.6-SNAPSHOT.jar elephant-bird-core-4.6-SNAPSHOT.jar elephant-bird-hadoop-compat-4.6-SNAPSHOT.jar 包
..
我已经部署了一个 CDH-5.9 集群,使用 MR 作为 hive 执行引擎.我有一个名为“users"的配置单元表,有 50 行.每当我执行查询 select * from users 工作正常如下: hive>从用户中选择*;行亚当 1 38 ATK093 厨师本杰明 2 24 ATK032 仆人查尔斯 3 45 ATK107 收银员常春藤 4 30 ATK384 仆人琳达 5 23 ATK
..
我有在 hive-0.9.0 上运行的 shark-0.8.0.我可以通过调用 shark 在 Hive 上编程.我创建了几个表并加载了数据. 现在,我正在尝试使用 Scala 访问这些表中的数据.我使用 shark-shell 调用了 Scala shell.但是当我尝试选择时,我收到了表格不存在的错误. scala>val 艺术家 = sc.sql2rdd("从 default.las
..
我试图将retail_db 数据库表复制到我已经创建的hive 数据库中.当我执行以下代码时 sqoop import-all-tables \--num-mappers 1 \--connect "jdbc:mysql://quickstart.cloudera:3306/retail_db" \--username=retail_dba \--password=cloudera \--hiv
..