hiveql相关内容

分解 Hive 中的结构数组

这是下面的 Hive 表 如果不存在则创建外部表 SampleTable(USER_ID BIGINT,NEW_ITEM ARRAY>) 这是上表中的数据- 1015826235 [{"product_id":220003038067,"timestamps":"1340321132000"},{"product_id":300003861266,"timestamps":"13402070 ..
发布时间:2021-12-15 18:32:59 其他开发

如何在 Hive 0.13 中更新表?

我的 Hive 版本是 0.13.我有两个表,table_1 和 table_2 table_1 包含: customer_id |项目 |价格|更新日期-------------+-------+-------+--------------10 |手表|1000 |2017062611 |蝙蝠 |400 |20170625 table_2 包含: customer_id |项目 |价 ..
发布时间:2021-12-15 18:27:32 其他开发

Hive 内部表和外部表的区别?

谁能告诉我 Hive 的外部表和内部表之间的区别.我知道在放下桌子时会有所不同.我不明白你说的数据是什么意思,元数据在内部被删除,只有元数据在外部表中被删除.任何人都可以在节点方面解释我吗. 解决方案 Hive 在它用来跟踪状态的主节点上有一个关系数据库.例如,当您 CREATE TABLE FOO(foo string) LOCATION 'hdfs://tmp/'; 时,此表模式存储在 ..
发布时间:2021-12-15 18:19:13 其他开发

如何将 HiveQL 查询的结果输出到 CSV?

我们想将 Hive 查询的结果放入 CSV 文件.我认为命令应该是这样的: insert overwrite directory '/home/output.csv' 从表中选择书籍; 当我运行它时,它说它已成功完成,但我永远找不到该文件.我如何找到这个文件,或者我应该以不同的方式提取数据? 解决方案 虽然可以使用 INSERT OVERWRITE 从 Hive 中获取数据,但对于您的 ..
发布时间:2021-12-05 12:29:08 其他开发

指定从 Hive 插入生成的文件的最小数量

我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似,但生成的文件数量各不相同,通常在 6 到 8 个之间,但有时它只会创建一个大文件.我重新运行了几次查询,以防万一文件数量碰巧受到集群中节点可用性的影响,但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大 ..
发布时间:2021-11-27 10:06:25 其他开发

Hive:在主表上进行增量更新的最佳方式

所以我在 Hive 中有一个主表,它将存储我所有的数据. 我希望能够加载大约每个月的增量数据更新拥有大量数据,数十亿行.会有新数据以及更新的条目. 解决这个问题的最佳方法是什么,我知道 Hive 最近升级并支持更新/插入/删除. 我一直在想的是以某种方式找到将要更新的条目并将它们从主表中删除,然后插入新的增量更新.但是在尝试之后,插入非常快,但删除非常慢. 另一种方式是使用 ..
发布时间:2021-11-25 13:56:25 Java开发

Hive 中 Presto UNNEST 函数的等价物是什么

Presto 有一个 UNNEST 函数来分解由数组组成的列.Hive 有类似的吗?请参阅 Presto 此处的UNNEST 功能的文档. 解决方案 使用lateral view [outer] expand.横向视图首先将 UDTF 应用于基表的每一行,然后将结果输出行连接到输入行以形成具有提供的表别名的虚拟表. 这是从 Hive 迁移 Presto 文档的示例: SELECT学 ..
发布时间:2021-11-18 03:10:07 其他开发

转义 Spark SQL 的用户输入

到目前为止,我一直在使用 JDBC 连接到 Spark 的 Thrift Server,并使用 JDBC 准备好的语句来逃避潜在的恶意用户输入. 我现在正在尝试将我们的代码直接移植到 HiveContext(即消除使用 Thrift Server),但我不太确定如何生成正确转义的 sql 语句... 想知道是否有人有正确的方法来做到这一点? 具体来说,我很想发表这个声明 va ..
发布时间:2021-11-14 23:26:08 其他开发

为什么'get_json_object'在spark和sql工具中运行时返回不同的结果

我开发了一个 hive 查询,它使用横向视图和 get_json_object 来解压一些 json.该查询使用 jdbc 客户端(dbvisualizer)针对 hive 数据库运行良好,但是当从 java 应用程序作为 spark sql 运行时,在相同的数据上,它不返回任何内容.我已将问题追溯到函数“get_json_object"返回的差异. 这个问题可以通过这种类型的查询来说明 ..
发布时间:2021-11-14 23:21:22 其他开发

TBLPROPERTIES('skip.header.line.count'='1') 不适用于从直线与 hive jdbc 1.2.1 连接的 sparkThrift

我正在使用 spark 2.3 并将 sparkThrift 与直线连接. Hive jdbc 版本 1.2.1Spark SQL 2.3.1 版 我正在尝试使用跳过标题属性创建外部表,但选择命令总是返回标题为第一行的数据,下面是我的创建查询 CREATE EXTERNAL TABLE datasourcename11(`retail_invoice_detail_sys_invoi ..
发布时间:2021-11-14 23:21:16 其他开发