hiveql相关内容
可能的重复: SQL Query JOIN with Table CREATE EXTERNAL TABLE IF NOT EXISTS TestingTable1(这是需要进行比较的主表)(BUYER_ID BIGINT,ITEM_ID BIGINT,CREATED_TIME STRING) 这是上面第一个表中的数据 **BUYER_ID** |**ITEM_ID** |**CREATE
..
Hive 的 join 文档鼓励使用隐式连接,即 SELECT *从表1 t1,表2 t2,表3 t3WHERE t1.id = t2.id AND t2.id = t3.id AND t1.zipcode = '02535'; 这相当于 SELECT t1.*, t2.*, t3.*从表 1 t1INNER JOIN table2 t2 ONt1.id = t2.idINNER JOIN
..
这是下面的 Hive 表 如果不存在则创建外部表 SampleTable(USER_ID BIGINT,NEW_ITEM ARRAY>) 这是上表中的数据- 1015826235 [{"product_id":220003038067,"timestamps":"1340321132000"},{"product_id":300003861266,"timestamps":"13402070
..
我的 Hive 版本是 0.13.我有两个表,table_1 和 table_2 table_1 包含: customer_id |项目 |价格|更新日期-------------+-------+-------+--------------10 |手表|1000 |2017062611 |蝙蝠 |400 |20170625 table_2 包含: customer_id |项目 |价
..
谁能告诉我 Hive 的外部表和内部表之间的区别.我知道在放下桌子时会有所不同.我不明白你说的数据是什么意思,元数据在内部被删除,只有元数据在外部表中被删除.任何人都可以在节点方面解释我吗. 解决方案 Hive 在它用来跟踪状态的主节点上有一个关系数据库.例如,当您 CREATE TABLE FOO(foo string) LOCATION 'hdfs://tmp/'; 时,此表模式存储在
..
我有一个像下面这样的 Hive 查询: select a.x as column from table1 a where a.y in ()联合所有select b.x as column from table2 b where b.y in () 我已将 hive.exec.parallel 设置为 true,这有助于我在 union all 之间的两个查询之间实现并行. 但是,我的
..
我们想将 Hive 查询的结果放入 CSV 文件.我认为命令应该是这样的: insert overwrite directory '/home/output.csv' 从表中选择书籍; 当我运行它时,它说它已成功完成,但我永远找不到该文件.我如何找到这个文件,或者我应该以不同的方式提取数据? 解决方案 虽然可以使用 INSERT OVERWRITE 从 Hive 中获取数据,但对于您的
..
我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似,但生成的文件数量各不相同,通常在 6 到 8 个之间,但有时它只会创建一个大文件.我重新运行了几次查询,以防万一文件数量碰巧受到集群中节点可用性的影响,但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大
..
所以我在 Hive 中有一个主表,它将存储我所有的数据. 我希望能够加载大约每个月的增量数据更新拥有大量数据,数十亿行.会有新数据以及更新的条目. 解决这个问题的最佳方法是什么,我知道 Hive 最近升级并支持更新/插入/删除. 我一直在想的是以某种方式找到将要更新的条目并将它们从主表中删除,然后插入新的增量更新.但是在尝试之后,插入非常快,但删除非常慢. 另一种方式是使用
..
我正在尝试将 int 数组的元素连接到 蜂巢. 函数 concat_ws 仅适用于字符串数组,所以我尝试了 cast(my_int_array as string) 但它不起作用. 有什么建议吗? 解决方案 尝试使用/bin/cat 进行转换: from mytable select transform(my_int_array) using '/bin/cat' as (
..
Presto 有一个 UNNEST 函数来分解由数组组成的列.Hive 有类似的吗?请参阅 Presto 此处的UNNEST 功能的文档. 解决方案 使用lateral view [outer] expand.横向视图首先将 UDTF 应用于基表的每一行,然后将结果输出行连接到输入行以形成具有提供的表别名的虚拟表. 这是从 Hive 迁移 Presto 文档的示例: SELECT学
..
我想在 hive 中将数组转换为字符串.我想在没有 [[""]] 的情况下将 collect_set 数组值转换为字符串. 选择actor, collect_set(date) as grpdate from actor_table group by actor; 这样 [["2016-07-01", "2016-07-02"]] 会变成 2016-07-01, 2016-07-02 解
..
如何在 hive 中处理这个 XML 文件,我只想要输出中的 USERNAME 和 PASSWORD
..
到目前为止,我一直在使用 JDBC 连接到 Spark 的 Thrift Server,并使用 JDBC 准备好的语句来逃避潜在的恶意用户输入. 我现在正在尝试将我们的代码直接移植到 HiveContext(即消除使用 Thrift Server),但我不太确定如何生成正确转义的 sql 语句... 想知道是否有人有正确的方法来做到这一点? 具体来说,我很想发表这个声明 va
..
我开发了一个 hive 查询,它使用横向视图和 get_json_object 来解压一些 json.该查询使用 jdbc 客户端(dbvisualizer)针对 hive 数据库运行良好,但是当从 java 应用程序作为 spark sql 运行时,在相同的数据上,它不返回任何内容.我已将问题追溯到函数“get_json_object"返回的差异. 这个问题可以通过这种类型的查询来说明
..
我正在使用 spark 2.3 并将 sparkThrift 与直线连接. Hive jdbc 版本 1.2.1Spark SQL 2.3.1 版 我正在尝试使用跳过标题属性创建外部表,但选择命令总是返回标题为第一行的数据,下面是我的创建查询 CREATE EXTERNAL TABLE datasourcename11(`retail_invoice_detail_sys_invoi
..
我在 Hive 中有这样的视图: id sequencenumber appname242539622 1A242539622 2A242539622 3A242539622 4 乙242539622 5 乙242539622 6 C242539622 7 D242539622 8 D242539622 9 D242539622 10 乙242539622 11 乙242539622 12D24
..
我想更新一个 orc 格式的 hive 表,我可以从我的 ambari hive 视图更新,但无法从 sacla (spark-shell) 运行相同的更新语句 objHiveContext.sql("select * from table_name ") 能够看到数据,但是当我运行时 objHiveContext.sql("update table_name set column_n
..
我有两个表,分别是table1 和table2.table1 很大,而 table2 很小.另外,我有一个 UDF 函数,其接口定义如下: --table1--ID123--表2--类别一种乙Cd电子FGUDF: foo(id: Int): List[String] 我打算先调用UDF来获取对应的category:foo(table1.id),它会返回一个WrappedArray,然后我想加入
..
HDFS 上的根目录:/tmp/hive 应该是可写的.当前权限为:rwx-------- 嗨,以下 Spark 代码我在 CDH 5.8 & Eclipse 中执行超越运行时异常 public static void main(String[] args) {final SparkConf sparkConf = new SparkConf().setMaster("local").se
..