hiveql相关内容

将 hive 表从一个数据库传输到另一个数据库

我需要将一个 hive 表从一个数据库移动到另一个数据库.我该怎么做? 解决方案 从 0.14 开始,您可以使用以下语句将表从一个数据库移动到同一 Metastore 中的另一个数据库: 使用 old_database;更改表 table_a 重命名为 new_database.table_a 如果table_a 是托管表,则上述语句还将移动 hdfs 上的表数据. ..
发布时间:2021-12-28 23:40:16 其他开发

HiveQL - 如何查找列值是数字还是不使用任何 UDF?

基本上我想根据一个列值返回行. 如果该列包含非数字值,则从 hive 表中返回这些行. Hive 中是否有任何 UDF 可用? 解决方案 我相信 Hive 支持 rlike(正则表达式).所以,你可以这样做: where col rlike '[^0-9]' 这会查找任何非数字字符.如果您的数值可能有小数点或逗号,您可以扩展它. ..
发布时间:2021-12-28 23:39:14 其他开发

'InputFormat, OutputFormat' 和有什么区别?在 Hive 中“存储为"?

我是大数据的新手,目前正在学习 Hive.我理解 InputFormat & 的概念Hive 中的 OutputFormat 作为 SerDe 的一部分.我还了解到“存储为"用于以特定格式存储文件,就像 InputFormat 一样.但我不明白使用 'InputFormat, OutputFormat' & 之间的显着区别是什么?'存储为'. 感谢任何帮助. 解决方案 Hive 有很 ..
发布时间:2021-12-28 23:39:06 其他开发

HIVE 中的 LIMIT 子句真的是随机的吗?

HIVE 注释的文档LIMIT 子句返回随机选择的行.我一直在使用 LIMIT 1 在超过 800,000 条记录的表上运行 SELECT 表,但它总是返回相同的记录. 我正在使用 Shark 发行版,我想知道这是否与这种非预期行为有关?任何想法将不胜感激. 谢谢,维萨赫 解决方案 尽管文档说明它随机返回行,但实际上并非如此. 它返回“随机选择的行",因为它出现在数据库中 ..
发布时间:2021-12-28 23:38:41 其他开发

空字符串在 Hive 中不被视为 null

我对下面语句的理解是,如果在hive列​​中插入空白或空字符串,将被视为空. TBLPROPERTIES('serialization.null.format'='' 为了测试功能,我创建了一个表并将 '' 插入到字段 3.当我在字段 3 上查询空值时,没有符合该条件的行. 我对将空白字符串设为 null 的理解是否正确? 创建表CDR(field1 字符串,field2 字符串,fi ..
发布时间:2021-12-28 23:38:21 其他开发

Hive 中的增量/增量负载

我有以下用例: 我的应用程序在 RDBMS 数据库中有一个包含 多年数据 的表.我们使用 sqoop 将数据导入 HDFS 并加载到按年、月分区的 hive 表中. 现在,应用程序也会每天更新并将新记录插入到 RDBMS 表中.这些更新的记录可以跨越历史月份.更新的记录和新的插入记录可以通过更新的时间戳字段来确定(它将具有当前日期时间戳). 现在的问题是:如何使用这些更新的记录每 ..
发布时间:2021-12-28 23:38:12 其他开发

在 Hive 中将字符串转换为时间戳

我的 Hive 表中有时间戳的以下字符串表示形式: 20130502081559999 我需要将其转换为这样的字符串: 2013-05-02 08:15:59 我尝试了以下({code} >>> {result}): from_unixtime(unix_timestamp('20130502081559999', 'yyyyMMddHHmmss')) >>>2013-05-03 00: ..
发布时间:2021-12-28 23:38:02 其他开发

Hive - LIKE 运算符

我不知道我是如何处理这个问题的: 这是我的数据: Table1: Table2:品牌产品销售索尼索尼ABCD 1233苹果索尼 adv 1233谷歌索尼 aaaa 1233IBM 苹果 123 1233等 苹果 345 1233IBM 13123 1233 是否可以过滤查询,我有一个表格,其中包含品牌和总销售额?我的想法是: 选择table1.brand, sum(table2.sol ..
发布时间:2021-12-28 23:37:53 其他开发

有没有办法在 Hive 中转置数据

这是我的桌子: pid 高 中 低1 10 8 62 20 16 123 10 6 4 我想将此数据存储在 Hive 中的另一个表中,格式如下: pid 优先级值1 高 101 中 81 低 62高202 中 162 低 123高103 中 63 低 4 解决方案 是的,在 Hive 中有一种方法可以做到这一点.您只需要创建一张地图,然后分解该地图. 查询: 创建表 db.new ..
发布时间:2021-12-28 23:37:17 其他开发

Hive 动态分区

我正在尝试使用动态分区创建分区表,但我遇到了一个问题.我在 Hortonworks Sandbox 2.0 上运行 Hive 0.12. set hive.exec.dynamic.partition=true;插入覆盖表 demo_tab 分区(土地)SELECT stadt, geograph_breite, id, t.country从演示_stg t; 但是它不起作用..我收到一个错误 ..
发布时间:2021-12-28 23:36:46 其他开发

如何计算 Hive 中的中位数

我有一张蜂巢表, 姓名年龄萨尔一个 45 1222乙 50 4555c 44 8888D 78 1222电子 12 788823 4555 我想计算年龄列的中位数. 下面是我的方法 select min(age) as HMIN,max(age) as HMAX,count(age) as HCount,IF(count(age)%2=0,'even','Odd') 作为 PCOUNT ..
发布时间:2021-12-28 23:35:32 其他开发

如何在 Hive SQL 中选择当前日期

我们如何在 Hive 中获取当前系统日期?在 MySQL 中我们有 select now(),有谁可以帮我得到查询结果.我对 Hive 非常陌生,是否有适当的 Hive 文档,其中提供了有关伪列和内置函数的详细信息. 解决方案 根据LanguageManual,您可以使用 unix_timestamp() 获取“使用默认时区的当前时间戳".如果您需要将其转换为更易读的内容,您可以使用 fr ..
发布时间:2021-12-28 23:34:16 其他开发

“减少"Hive 中的一组行到另一组行

我正在使用 Hive 对我的空间数据库进行批处理.我的跟踪表看起来像这样: 对象 |纬度 |长 |时间戳1 |X11 |X12 |T111 |X21 |X22 |T122 |X11 |X12 |T211 |X31 |X22 |T132 |X21 |X22 |T22 我想将每个对象的每个经纬度映射到一个数字(例如考虑地图匹配),但算法需要考虑多个相邻数据点才能获得结果.例如,我需要对象 1 的所 ..
发布时间:2021-12-28 23:32:40 其他开发

我们如何使用 hive 获得 1000 个表的描述?

我有1000张表,需要一一查看describe ;.不是一个一个运行,你能不能给我一个命令来一次获取“N"个表. 解决方案 查询 Metastore 演示 蜂巢 创建数据库 my_db_1;创建数据库 my_db_2;创建数据库 my_db_3;创建表 my_db_1.my_tbl_1 (i int);创建表 my_db_2.my_tbl_2 (c1 string,c2 d ..
发布时间:2021-12-28 23:32:00 其他开发

散列如何在 hive 的分桶中工作?

我知道 Java 中 HashMap 的散列原理,所以想知道当我们将数据分到不同的桶中时,散列是如何对 Hive 工作的. 解决方案 我最近不得不深入研究一些 Hive 源代码来为自己解决这个问题.这是我发现的: 对于整数字段,hash 只是整数值.对于字符串,它使用 类似版本 Java 的字符串 hashCode.对多个值进行散列时,散列是 Java 的列表哈希码. ..
发布时间:2021-12-28 23:31:33 其他开发

如何在 hive 中添加时间戳列

我有如下两行: 941 78 252 3008 86412 1718502 257796 2223252 292221 45514 114894980 78 258 3064 88318 1785623 269374 2322408 305467 46305 116970 我想在插入每一行时插入当前时间戳.最后在我的蜂巢表行应该如下所示: 941 78 252 3008 86412 17 ..
发布时间:2021-12-28 23:31:05 其他开发

有没有办法识别或检测 Hive 表中的数据倾斜?

我们有许多需要花费大量时间的 hive 查询.我们正在使用 tez 和其他良好实践,例如 CBO、使用 orc 文件等. 有没有办法像某些命令一样检查/分析数据偏差?解释计划有帮助吗?如果有,我应该寻找哪个参数? 解决方案 解释计划对此没有帮助,您应该检查数据.如果是join,则从join涉及的所有表中选择前100个join key值,如果是解析函数,按key分区也一样,看是不是sk ..
发布时间:2021-12-28 23:30:07 其他开发

从 unix_time yyyy-MM-dd HH:mm:ss 计算 start_time 和 end_time 之间的差异(以秒为单位)

我仍在学习 SQL,我在 SQL Server 或 Postgreы 上找到了几个解决方案,但在 HUE 上发现它不起作用DATEDIFF,只允许我计算天之间的差异秒、分钟不可用.非常欢迎帮助. 我能够用 substring_index 分割时间戳,但是我找不到正确的方法来比较和减去 start_time 到 end_time 以获得准确的秒数.我找不到时间函数,所以我假设我应该根据时间戳计 ..
发布时间:2021-12-28 23:29:57 其他开发