hiveql 第8页 - IT屋-程序员软件开发技术分享社区

使用 HiveQL(Hadoop) 在 Hive 中连接两个表

可能的重复: SQL Query JOIN with Table CREATE EXTERNAL TABLE IF NOT EXISTS TestingTable1(这是需要进行比较的主表)(BUYER_ID BIGINT，ITEM_ID BIGINT，CREATED_TIME STRING) 这是上面第一个表中的数据 **BUYER_ID** |**ITEM_ID** |**CREATE ..

发布时间：2021-12-15 18:44:02 sql hadoop mapreduce hive hiveql 其他开发

Hive 的隐式连接总是内部连接吗?

Hive 的 join 文档鼓励使用隐式连接，即 SELECT *从表1 t1，表2 t2，表3 t3WHERE t1.id = t2.id AND t2.id = t3.id AND t1.zipcode = '02535'; 这相当于 SELECT t1.*, t2.*, t3.*从表 1 t1INNER JOIN table2 t2 ONt1.id = t2.idINNER JOIN ..

发布时间：2021-12-15 18:35:58 hadoop join hive hiveql 其他开发

分解 Hive 中的结构数组

这是下面的 Hive 表如果不存在则创建外部表 SampleTable(USER_ID BIGINT，NEW_ITEM ARRAY>) 这是上表中的数据- 1015826235 [{"product_id":220003038067,"timestamps":"1340321132000"},{"product_id":300003861266,"timestamps":"13402070 ..

发布时间：2021-12-15 18:32:59 hadoop mapreduce hive hiveql 其他开发

如何在 Hive 0.13 中更新表?

我的 Hive 版本是 0.13.我有两个表，table_1 和 table_2 table_1 包含: customer_id |项目 |价格|更新日期-------------+-------+-------+--------------10 |手表|1000 |2017062611 |蝙蝠 |400 |20170625 table_2 包含: customer_id |项目 |价 ..

发布时间：2021-12-15 18:27:32 hadoop hive hiveql acid 其他开发

Hive 内部表和外部表的区别?

谁能告诉我 Hive 的外部表和内部表之间的区别.我知道在放下桌子时会有所不同.我不明白你说的数据是什么意思，元数据在内部被删除，只有元数据在外部表中被删除.任何人都可以在节点方面解释我吗. 解决方案 Hive 在它用来跟踪状态的主节点上有一个关系数据库.例如，当您 CREATE TABLE FOO(foo string) LOCATION 'hdfs://tmp/'; 时，此表模式存储在 ..

发布时间：2021-12-15 18:19:13 hadoop hive hiveql 其他开发

并行执行带有 IN 子句参数的 Hive 查询

我有一个像下面这样的 Hive 查询: select a.x as column from table1 a where a.y in ()联合所有select b.x as column from table2 b where b.y in () 我已将 hive.exec.parallel 设置为 true，这有助于我在 union all 之间的两个查询之间实现并行. 但是，我的 ..

发布时间：2021-12-08 11:40:43 performance hadoop hive query-optimization hiveql 其他开发

如何将 HiveQL 查询的结果输出到 CSV?

我们想将 Hive 查询的结果放入 CSV 文件.我认为命令应该是这样的: insert overwrite directory '/home/output.csv' 从表中选择书籍；当我运行它时，它说它已成功完成，但我永远找不到该文件.我如何找到这个文件，或者我应该以不同的方式提取数据? 解决方案虽然可以使用 INSERT OVERWRITE 从 Hive 中获取数据，但对于您的 ..

发布时间：2021-12-05 12:29:08 database hadoop hive hiveql 其他开发

我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似，但生成的文件数量各不相同，通常在 6 到 8 个之间，但有时它只会创建一个大文件.我重新运行了几次查询，以防万一文件数量碰巧受到集群中节点可用性的影响，但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大 ..

发布时间：2021-11-27 10:06:25 hive mapreduce hiveql amazon-emr hadoop-partitioning 其他开发

Hive:在主表上进行增量更新的最佳方式

所以我在 Hive 中有一个主表，它将存储我所有的数据. 我希望能够加载大约每个月的增量数据更新拥有大量数据，数十亿行.会有新数据以及更新的条目. 解决这个问题的最佳方法是什么，我知道 Hive 最近升级并支持更新/插入/删除. 我一直在想的是以某种方式找到将要更新的条目并将它们从主表中删除，然后插入新的增量更新.但是在尝试之后，插入非常快，但删除非常慢. 另一种方式是使用 ..

发布时间：2021-11-25 13:56:25 java hadoop merge hive hiveql Java开发

如何在 Hive 中将 int 数组的元素连接到字符串

我正在尝试将 int 数组的元素连接到蜂巢. 函数 concat_ws 仅适用于字符串数组，所以我尝试了 cast(my_int_array as string) 但它不起作用. 有什么建议吗? 解决方案尝试使用/bin/cat 进行转换: from mytable select transform(my_int_array) using '/bin/cat' as ( ..

发布时间：2021-11-18 04:19:54 arrays hive concatenation hiveql 其他开发

Hive 中 Presto UNNEST 函数的等价物是什么

Presto 有一个 UNNEST 函数来分解由数组组成的列.Hive 有类似的吗?请参阅 Presto 此处的UNNEST 功能的文档. 解决方案使用lateral view [outer] expand.横向视图首先将 UDTF 应用于基表的每一行，然后将结果输出行连接到输入行以形成具有提供的表别名的虚拟表. 这是从 Hive 迁移 Presto 文档的示例: SELECT学 ..

发布时间：2021-11-18 03:10:07 arrays hive hiveql presto unnest 其他开发

如何在 hive sql 中将数组转换为字符串?

我想在 hive 中将数组转换为字符串.我想在没有 [[""]] 的情况下将 collect_set 数组值转换为字符串. 选择actor, collect_set(date) as grpdate from actor_table group by actor；这样 [["2016-07-01", "2016-07-02"]] 会变成 2016-07-01, 2016-07-02 解 ..

发布时间：2021-11-18 03:03:07 arrays string hive concatenation hiveql 其他开发

如何在 hive 中处理 XML 文件

如何在 hive 中处理这个 XML 文件，我只想要输出中的 USERNAME 和 PASSWORD ..

发布时间：2021-11-17 03:22:07 hadoop hive hiveql sqoop archive 其他开发

转义 Spark SQL 的用户输入

到目前为止，我一直在使用 JDBC 连接到 Spark 的 Thrift Server，并使用 JDBC 准备好的语句来逃避潜在的恶意用户输入. 我现在正在尝试将我们的代码直接移植到 HiveContext(即消除使用 Thrift Server)，但我不太确定如何生成正确转义的 sql 语句... 想知道是否有人有正确的方法来做到这一点? 具体来说，我很想发表这个声明 va ..

发布时间：2021-11-14 23:26:08 apache-spark hiveql apache-spark-sql 其他开发

为什么'get_json_object'在spark和sql工具中运行时返回不同的结果

我开发了一个 hive 查询，它使用横向视图和 get_json_object 来解压一些 json.该查询使用 jdbc 客户端(dbvisualizer)针对 hive 数据库运行良好，但是当从 java 应用程序作为 spark sql 运行时，在相同的数据上，它不返回任何内容.我已将问题追溯到函数“get_json_object"返回的差异. 这个问题可以通过这种类型的查询来说明 ..

发布时间：2021-11-14 23:21:22 apache-spark hive apache-spark-sql hiveql 其他开发

TBLPROPERTIES('skip.header.line.count'='1') 不适用于从直线与 hive jdbc 1.2.1 连接的 sparkThrift

我正在使用 spark 2.3 并将 sparkThrift 与直线连接. Hive jdbc 版本 1.2.1Spark SQL 2.3.1 版我正在尝试使用跳过标题属性创建外部表，但选择命令总是返回标题为第一行的数据，下面是我的创建查询 CREATE EXTERNAL TABLE datasourcename11(`retail_invoice_detail_sys_invoi ..

发布时间：2021-11-14 23:21:16 hive apache-spark-sql hiveql spark-thriftserver 其他开发

如何识别 Hive 中字符串列的重复出现?

我在 Hive 中有这样的视图: id sequencenumber appname242539622 1A242539622 2A242539622 3A242539622 4 乙242539622 5 乙242539622 6 C242539622 7 D242539622 8 D242539622 9 D242539622 10 乙242539622 11 乙242539622 12D24 ..

发布时间：2021-11-14 23:17:32 hive pyspark hiveql pyspark-sql sparkr 其他开发

如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新一个 orc 格式的 hive 表，我可以从我的 ambari hive 视图更新，但无法从 sacla (spark-shell) 运行相同的更新语句 objHiveContext.sql("select * from table_name ") 能够看到数据，但是当我运行时 objHiveContext.sql("update table_name set column_n ..

发布时间：2021-11-14 23:00:19 scala apache-spark apache-spark-sql hiveql hivecontext 其他开发

如何使用键取消嵌套数组，然后再加入?

我有两个表，分别是table1 和table2.table1 很大，而 table2 很小.另外，我有一个 UDF 函数，其接口定义如下: --table1--ID123--表2--类别一种乙Cd电子FGUDF: foo(id: Int): List[String] 我打算先调用UDF来获取对应的category:foo(table1.id)，它会返回一个WrappedArray，然后我想加入 ..

发布时间：2021-11-14 22:58:56 apache-spark hive apache-spark-sql hiveql 其他开发

HDFS 上的 root 临时目录:/tmp/hive 应该是可写的.当前权限为:rwx---------(在 Linux 上)

HDFS 上的根目录:/tmp/hive 应该是可写的.当前权限为:rwx-------- 嗨，以下 Spark 代码我在 CDH 5.8 & Eclipse 中执行超越运行时异常 public static void main(String[] args) {final SparkConf sparkConf = new SparkConf().setMaster("local").se ..

发布时间：2021-11-14 22:31:02 apache-spark hive apache-spark-sql spark-dataframe hiveql 其他开发

hiveql相关内容