hiveql相关内容
我有两个表: create table a ( `1` array); create table b ( `1` array); 我想将表a放在表b中(表b为空): insert into table b select * from a; 这样做时,出现以下错误: FAILED: SemanticException [Error 10044]:
..
我在hive中有一个表,其中2列分别为col1 array和col2 array.输出如下图所示 col1 col2 [1,2,3,4,5] [0.43,0.01,0.45,0.22,0.001] 我想将此col2升序排序,并且col1还应相应地更改其索引,例如. col1 col
..
我开发了一个配置单元查询,该查询使用侧面视图和get_json_object来解压一些json.使用hdb数据库的jdbc客户端(dbvisualizer)可以很好地执行查询,但是当从java应用程序以spark sql的形式在相同数据上运行时,该查询不返回任何内容. 我已将问题归结为"get_json_object"函数返回值的差异. 此查询类型可以说明问题 select conca
..
我在Hive中有这样的看法: id sequencenumber appname 242539622 1 A 242539622 2 A 242539622 3 A 242539622 4
..
我想更新一个orc格式的配置单元表,我可以从ambari配置单元视图进行更新,但是无法从sacla(spark-shell)运行相同的更新语句 objHiveContext.sql("select * from table_name")能够查看数据,但是当我运行 objHiveContext.sql("update table_name set column_name ='testin
..
如何在Spark sql中访问HIVE ACID表? 解决方案 我们已经研究并开源了一个数据源,该数据源将使用户能够使用Spark处理其Hive ACID事务表. Github: https://github.com/qubole/spark-acid 它可以作为Spark软件包提供,其使用说明在Github页面上.当前,数据源仅支持从Hive ACID表读取,并且我们正在努力增加
..
使用以下命令来自spark: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存,我可以使用以下命令的hadoop fs -ls /apps/hive/warehouse\test.db'看到其中test是我的数据库名称 drwxr-xr-x-psudhir h
..
我想创建一个频率分布矩阵 1.Create a matrix.**Is it possible to get this in separate columns** customer1 p1 p2 p3 customer 2 p2 p3 customer 3 p2 p3 p1
..
我的问题很简单,但是以某种方式我无法通过阅读文档找到明确的答案. 我有 Spark2 在 CDH 5.10 集群上运行. 还有Hive和一个Metastore. 我在Spark程序中创建一个会话,如下所示: SparkSession spark = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrC
..
我正在使用RStudio. 创建会话后,如果我尝试使用R数据创建数据框,则会出错. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") Sys.setenv(HADOOP_HOME = "E:/winutils") .libPaths(c(file.path(Sys.gete
..
例如,我要传递给Spark SQL的Hive HQL语句很少: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5; 以下操作无效: hiveContext.sql
..
我有一个表,该表的数组类型列名为writer,其值类似于array[value1, value2],array[value2, value3] ...等. 我正在执行self join以获得数组之间具有公共值的结果.我试过了: sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id != R2.id W
..
我正在使用Spark SQL(我提到它在Spark中,以防影响SQL语法-我尚不十分确定,尚不能确定),并且我有一个表试图进行重组,但是我在尝试同时转置多列时陷入困境. 基本上我的数据如下: userId someString varA varB 1 "example1" [0,2,5] [1,2,9] 2 "examp
..
我正在尝试将REC_TIME列中的字符串转换为蜂巢中的时间戳格式. 例如: Sun Jul 31 UTC 2016 => 2016-07-31 09:28:20 SELECT xxx, UNIX_TIMESTAMP(REC_TIME, "E M dd HH:mm:ss z yyyy") FROM wlogs LIMIT 10; 当我执行上述SQL时,它返回NULL值. 解决方
..
我的表格结构如下. CREATE TABLE db.TEST( f1 string, f2 string, f3 string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES ( 'input.regex'='(.{2})(.{3})(.{4})' ) STORED A
..
我有一些记录,其中每一行都属于某些类别(数据类型-字符串数组)和唯一类别的单独列表(数据类型-字符串).我需要将每一行与唯一列表匹配,并为其创建标志. Input: ------ ID Category 1 ["Physics","Math"] 2 ["Math"] 3 ["Math,"Chemistry"] 4 ["Physics","Computer"]
..
我正在使用spark 2.3,并将sparkThrift与beeline连接起来. Hive jdbc版本1.2.1 Spark SQL版本2.3.1 我正在尝试创建具有skip header属性的外部表,但是select命令总是返回标题为第一行的数据,以下是我的create查询 CREATE EXTERNAL TABLE datasourcename11( `retail_in
..
我正在尝试计算具有字符串数据类型的行的两列之间的时间差.如果它们之间的时间差小于2小时,则选择该行的第一列,否则,如果时间差大于2小时,则选择该行的第二列.可以通过将列转换为日期时间格式来完成,但是我希望结果仅在字符串中.我怎样才能做到这一点?数据如下: col1(字符串类型) 2018-07-16 02:23:00 2018-07-26 12:26:00 2018-07-26 15:
..
我无法在Hive中选择结构数组. 我的源表如下: +-------------+--+ | field | +-------------+--+ | id | | fieldid | | fieldlabel | | fieldtype | | answer_id | | unitname | +-------------+--+
..
我正在尝试将int数组的元素连接为蜂巢. 函数concat_ws仅适用于字符串数组,因此我尝试了cast(my_int_array as string),但它不起作用. 有什么建议吗? 解决方案 尝试使用/bin/cat进行转换: from mytable select transform(my_int_array) using '/bin/cat' as (my_int
..