hiveql相关内容

如何在蜂巢中以驼峰式命名保留列名

选择“12345"作为“EmpId"; -- 输出为 empid,值为 12345 是否有任何线索使列名与 EmpId 保持相同? 解决方案 不可能.这是 HIVE Metastore 的限制.它以全小写形式存储表的模式. Hive 使用这种方法来规范化列名,参见 Table.java private static String normalize(String col ..
发布时间:2021-12-28 23:50:53 其他开发

创建在列的特定值上重置的排名

我当前的数据是这样的(注意它是按日期时间排序的): +----------------+---------------------+---------+|客户编号 |日期 |频道 |+----------------+---------------------+---------+|120584446 |2015-05-22 21:16:05 |一个 ||120584446 |2015-05-2 ..
发布时间:2021-12-28 23:49:12 其他开发

使用 HiveQL 分解结构数组

如果不存在则创建表 Table2(USER_ID BIGINT,PURCHASED_ITEM ARRAY>) 行格式以“-"结尾的分隔字段以“,"结尾的集合项以“:"结尾的映射键以 '\n' 结尾的行存储为文本文件LOCATION '/user/rj/output2'; 以下是表2中的数据 1345653-110909316904:1341894546,221065796761:1341887 ..
发布时间:2021-12-28 23:46:22 其他开发

HiveQL 和 rank()

我无法理解 HiveQL rank().我在 WWW 上找到了几个 rank UDF 的实现,例如 Edward 的好例子.我可以加载和访问这些功能,但我无法让它们做我想做的事.下面是一个详细的例子: 将 UDF 加载到 CLI 过程中: $ javac -classpath/home/hadoop/hadoop/hadoop-core-1.0.4.jar:/home/hadoop/hiv ..
发布时间:2021-12-28 23:46:00 其他开发

Hive SELECT 语句来创建一个 STRUCTS 数组

我无法选择 Hive 中的结构数组. 我的源表如下所示: +-------------+--+|领域|+-------------+--+|身份证 ||字段ID ||字段标签 ||字段类型 ||answer_id ||单位名称 |+-------------+--+ 这是调查数据,其中id是调查id,中间的四个字段是响应数据,unitname是调查所属的业务单位. 我需要为每个调查 ..
发布时间:2021-12-28 23:45:36 其他开发

hive 中“加载数据 inpath"和“location"的区别?

在我的公司,我看到这两个命令经常使用,我想知道它们之间的区别,因为它们的功能在我看来是一样的: 1 创建表(名称字符串,数字双);将数据 inpath '/directory-path/file.csv' 加载到 ; 2 创建表(名称字符串,数字双);location '/directory-path/file.csv'; 他们都将数据从 HDFS 上的目录复制到 ..
发布时间:2021-12-28 23:43:04 其他开发

如何使用列类型时间戳创建外部 Hive 表

我想从一个包含 HDFS 纪元的文本文件创建一个外部 Hive 表.假设文件位于 /user/me/test.txt.文件内容如下: 13541839211354183922 我安装了 Hive 0.8.1 并且应该能够使用类型时间戳,所以我创建了表: hive>创建外部表 test1(纪元时间戳)LOCATION '/用户/我'; 然后我查询了表: SELECT * FROM test ..
发布时间:2021-12-28 23:42:44 其他开发

Hive Data 根据时间戳选择最新值

我有一个包含以下列的表格. C1,C2,Process TimeStamp,InsertDateTimeStampp1,v1,2014-01-30 12:15:23,2013-10-01 05:34:23p1,v2,2014-01-31 05:11:34,2013-12-01 06:12:31p1,v3,2014-01-31 07:16:05,2012-09-01 07:45:20p2,v4,2 ..
发布时间:2021-12-28 23:42:32 其他开发

Hive 连接优化

我有两组数据都存储在 S3 存储桶中,我需要在 Hive 中处理这些数据并将输出存储回 S3.每个数据集的样本行如下: DataSet 1: {"requestId":"TADS6152JHGJH5435", "customerId":"ASJHAGSJH","sessionId":"172356126"}数据集2:{"requestId":"TADS6152JHGJH5435","userAg ..
发布时间:2021-12-28 23:42:09 其他开发

使用参数在 Hive 中创建视图

我有一个表格,其中包含属于不同日期的行.我想创建一个视图,它应该根据日期为我提供数据 创建查看新用户作为选择 DISTINCT T1.uuidFROM user_visit T1WHERE T1.firstSeen="20140522"; 我不想修复 WHERE T1.firstSeen="20140522";它可以是任何日期,如 20140525 等.有什么办法可以创建一个以日期为参数的视图 ..
发布时间:2021-12-28 23:41:59 其他开发

Hive 解释计划理解

有没有什么合适的资源可以让我们完全理解hive生成的解释计划?我曾尝试在 wiki 中搜索它,但找不到完整的指南来理解它.这是 wiki,它简要解释了解释计划的工作原理.但我需要有关如何推断解释计划的更多信息.https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain 解决方案 我会尽量解释我所知道的. ..
发布时间:2021-12-28 23:41:15 其他开发

Hive QL - 每个项目的行数限制

如果我在 where 子句中列出了多个项目,如何将列表中每个项目的结果限制为 N? 例如: select a_id,b,c, count(*), as sumrequests来自表名在哪里a_id in (1,2,3)按 a_id,b,c 分组限制 10000 解决方案 听起来您的问题是要获得每个 a_id 的前 N ​​个.您可以使用 Hive 11 中引入的窗口函数来完成此操作.例 ..
发布时间:2021-12-28 23:41:07 其他开发

hive 表中 count(*) 结果错误

我在 HIVE 中创建了一个表 如果不存在则创建表 daily_firstseen_analysis (第一次看到 STRING,类别字符串,圈STRING,指定字符串,语言字符串,osType 字符串,算INT)PARTITIONED by (day STRING)行格式分隔以 '\t' 结尾的字段作为兽人存储; count(*) 没有给我正确的结果 hive>从daily_firstse ..
发布时间:2021-12-28 23:40:51 其他开发

Hive LEFT SEMI JOIN 表示“不存在"

我有两个表,只有一个键列.表 a 中的键是表 b 中所有键的子集.我需要从表 b 中选择不在表 a 中的键. 这是 Hive 手册中的引文:“LEFT SEMI JOIN 以有效的方式实现了不相关的 IN/EXISTS 子查询语义.从 Hive 0.13 开始,使用子查询支持 IN/NOT IN/EXISTS/NOT EXISTS 运算符,因此大多数这些 JOIN 不再需要手动执行. 使用L ..
发布时间:2021-12-28 23:40:34 其他开发