hiveql 第18页 - IT屋-程序员软件开发技术分享社区

配置单元:强制转换数组< string>排列< int>在查询中

我有两个表: create table a ( `1` array); create table b ( `1` array); 我想将表a放在表b中(表b为空): insert into table b select * from a; 这样做时，出现以下错误: FAILED: SemanticException [Error 10044]: ..

发布时间：2020-09-07 06:48:54 arrays hadoop hive hiveql 其他开发

Hive对同一表中其他数组列的排序数组列

我在hive中有一个表，其中2列分别为col1 array和col2 array.输出如下图所示 col1 col2 [1,2,3,4,5] [0.43,0.01,0.45,0.22,0.001] 我想将此col2升序排序，并且col1还应相应地更改其索引，例如. col1 col ..

发布时间：2020-09-07 05:21:09 sql arrays hadoop hive hiveql 其他开发

为什么在Spark和SQL工具中运行'get_json_object'会返回不同的结果

我开发了一个配置单元查询，该查询使用侧面视图和get_json_object来解压一些json.使用hdb数据库的jdbc客户端(dbvisualizer)可以很好地执行查询，但是当从java应用程序以spark sql的形式在相同数据上运行时，该查询不返回任何内容. 我已将问题归结为"get_json_object"函数返回值的差异. 此查询类型可以说明问题 select conca ..

发布时间：2020-09-04 21:50:28 apache-spark hive apache-spark-sql hiveql 其他开发

如何识别Hive中字符串列的重复出现?

我在Hive中有这样的看法: id sequencenumber appname 242539622 1 A 242539622 2 A 242539622 3 A 242539622 4 ..

发布时间：2020-09-04 21:08:40 hive pyspark hiveql pyspark-sql sparkr 其他开发

如何使用Scala更新ORC Hive表表单Spark的数据

我想更新一个orc格式的配置单元表，我可以从ambari配置单元视图进行更新，但是无法从sacla(spark-shell)运行相同的更新语句 objHiveContext.sql("select * from table_name")能够查看数据，但是当我运行 objHiveContext.sql("update table_name set column_name ='testin ..

发布时间：2020-09-04 20:27:06 scala apache-spark apache-spark-sql hiveql hivecontext 其他开发

如何访问Spark sql中的HIVE ACID表?

如何在Spark sql中访问HIVE ACID表? 解决方案我们已经研究并开源了一个数据源，该数据源将使用户能够使用Spark处理其Hive ACID事务表. Github: https://github.com/qubole/spark-acid 它可以作为Spark软件包提供，其使用说明在Github页面上.当前，数据源仅支持从Hive ACID表读取，并且我们正在努力增加 ..

发布时间：2020-09-04 19:10:23 scala apache-spark-sql hiveql pyspark-sql 其他开发

蜂巢表是由Spark创建的，但在蜂巢中不可见

使用以下命令来自spark: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存，我可以使用以下命令的hadoop fs -ls /apps/hive/warehouse\test.db'看到其中test是我的数据库名称 drwxr-xr-x-psudhir h ..

发布时间：2020-09-04 09:11:38 apache-spark hive hiveql hivecontext 其他开发

SQL查询产品的频率分布矩阵

我想创建一个频率分布矩阵 1.Create a matrix.**Is it possible to get this in separate columns** customer1 p1 p2 p3 customer 2 p2 p3 customer 3 p2 p3 p1 ..

发布时间：2020-09-04 07:59:12 sql apache-spark hive hiveql 其他开发

Spark 2:调用SparkSession enableHiveSupport()时如何工作

我的问题很简单，但是以某种方式我无法通过阅读文档找到明确的答案. 我有 Spark2 在 CDH 5.10 集群上运行. 还有Hive和一个Metastore. 我在Spark程序中创建一个会话，如下所示: SparkSession spark = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrC ..

发布时间：2020-09-04 06:58:58 apache-spark hive apache-spark-sql hiveql 其他开发

Rstudio的SparkR-在invokeJava(isStatic = TRUE，className，methodName，...)中给出错误:

我正在使用RStudio. 创建会话后，如果我尝试使用R数据创建数据框，则会出错. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") Sys.setenv(HADOOP_HOME = "E:/winutils") .libPaths(c(file.path(Sys.gete ..

发布时间：2020-09-04 05:08:21 r apache-spark hiveql apache-spark-mllib sparkr 其他开发

如何将多个语句传递到Spark SQL HiveContext

例如，我要传递给Spark SQL的Hive HQL语句很少: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5; 以下操作无效: hiveContext.sql ..

发布时间：2020-09-04 04:28:23 apache-spark hiveql spark-dataframe 其他开发

Spark SQL中的数组交集

我有一个表，该表的数组类型列名为writer，其值类似于array[value1, value2]，array[value2, value3] ...等. 我正在执行self join以获得数组之间具有公共值的结果.我试过了: sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id != R2.id W ..

发布时间：2020-09-04 00:58:33 apache-spark apache-spark-sql spark-dataframe hiveql apache-spark-dataset 其他开发

分解(转置?)Spark SQL表中的多个列

我正在使用Spark SQL(我提到它在Spark中，以防影响SQL语法-我尚不十分确定，尚不能确定)，并且我有一个表试图进行重组，但是我在尝试同时转置多列时陷入困境. 基本上我的数据如下: userId someString varA varB 1 "example1" [0,2,5] [1,2,9] 2 "examp ..

发布时间：2020-09-03 23:28:37 sql apache-spark apache-spark-sql hiveql 其他开发

Apache Hive:如何将字符串转换为时间戳?

我正在尝试将REC_TIME列中的字符串转换为蜂巢中的时间戳格式. 例如: Sun Jul 31 UTC 2016 => 2016-07-31 09:28:20 SELECT xxx, UNIX_TIMESTAMP(REC_TIME, "E M dd HH:mm:ss z yyyy") FROM wlogs LIMIT 10; 当我执行上述SQL时，它返回NULL值. 解决方 ..

发布时间：2020-08-23 02:13:01 hadoop hive hiveql emr 其他开发

正则表达式SerDe不支持serialize()方法错误

我的表格结构如下. CREATE TABLE db.TEST( f1 string, f2 string, f3 string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES ( 'input.regex'='(.{2})(.{3})(.{4})' ) STORED A ..

发布时间：2020-08-06 01:09:29 regex hadoop hive hiveql regexserde 其他开发

Hive查询:匹配字符串数组中的列值以生成标志

我有一些记录，其中每一行都属于某些类别(数据类型-字符串数组)和唯一类别的单独列表(数据类型-字符串).我需要将每一行与唯一列表匹配，并为其创建标志. Input: ------ ID Category 1 ["Physics","Math"] 2 ["Math"] 3 ["Math,"Chemistry"] 4 ["Physics","Computer"] ..

发布时间：2020-07-29 20:18:02 sql database hive hiveql arrayofstring 其他开发

TBLPROPERTIES('skip.header.line.count'='1')无法在SparkThrift上使用蜂巢jdbc 1.2.1从beeline连接

我正在使用spark 2.3，并将sparkThrift与beeline连接起来. Hive jdbc版本1.2.1 Spark SQL版本2.3.1 我正在尝试创建具有skip header属性的外部表，但是select命令总是返回标题为第一行的数据，以下是我的create查询 CREATE EXTERNAL TABLE datasourcename11( `retail_in ..

发布时间：2020-07-25 18:46:23 hive apache-spark-sql hiveql spark-thriftserver 其他开发

计算蜂巢中字符串类型的两列之间的时差，而无需更改数据类型字符串

我正在尝试计算具有字符串数据类型的行的两列之间的时间差.如果它们之间的时间差小于2小时，则选择该行的第一列，否则，如果时间差大于2小时，则选择该行的第二列.可以通过将列转换为日期时间格式来完成，但是我希望结果仅在字符串中.我怎样才能做到这一点?数据如下: col1(字符串类型) 2018-07-16 02:23:00 2018-07-26 12:26:00 2018-07-26 15: ..

发布时间：2020-07-23 05:16:01 database hive hiveql hive-query 其他开发

配置单元SELECT语句创建STRUCTS的数组

发布时间：2020-07-17 23:10:46 arrays struct hive hiveql 其他开发

如何在Hive中将int数组的元素连接为字符串

我正在尝试将int数组的元素连接为蜂巢. 函数concat_ws仅适用于字符串数组，因此我尝试了cast(my_int_array as string)，但它不起作用. 有什么建议吗? 解决方案尝试使用/bin/cat进行转换: from mytable select transform(my_int_array) using '/bin/cat' as (my_int ..

发布时间：2020-07-17 21:01:49 arrays hive hiveql 其他开发

hiveql相关内容