hive相关内容

将 csv 数据加载到 Hive 表中时出错

我在 hadoop 中有一个 csv 文件,我有一个 Hive 表,现在我想将该 csv 文件加载到这个 Hive 表中 我已经使用 load LOAD DATA local 'path/to/csv/file' overwrite INTO TABLE tablename; 最终出现此错误: Error in .verify.JDBC.result(r, "Unable to re ..
发布时间:2021-12-28 23:43:28 其他开发

hive 中“加载数据 inpath"和“location"的区别?

在我的公司,我看到这两个命令经常使用,我想知道它们之间的区别,因为它们的功能在我看来是一样的: 1 创建表(名称字符串,数字双);将数据 inpath '/directory-path/file.csv' 加载到 ; 2 创建表(名称字符串,数字双);location '/directory-path/file.csv'; 他们都将数据从 HDFS 上的目录复制到 ..
发布时间:2021-12-28 23:43:04 其他开发

如何使用列类型时间戳创建外部 Hive 表

我想从一个包含 HDFS 纪元的文本文件创建一个外部 Hive 表.假设文件位于 /user/me/test.txt.文件内容如下: 13541839211354183922 我安装了 Hive 0.8.1 并且应该能够使用类型时间戳,所以我创建了表: hive>创建外部表 test1(纪元时间戳)LOCATION '/用户/我'; 然后我查询了表: SELECT * FROM test ..
发布时间:2021-12-28 23:42:44 其他开发

Hive Data 根据时间戳选择最新值

我有一个包含以下列的表格. C1,C2,Process TimeStamp,InsertDateTimeStampp1,v1,2014-01-30 12:15:23,2013-10-01 05:34:23p1,v2,2014-01-31 05:11:34,2013-12-01 06:12:31p1,v3,2014-01-31 07:16:05,2012-09-01 07:45:20p2,v4,2 ..
发布时间:2021-12-28 23:42:32 其他开发

BigQuery 中是否有像“hive Metastore"这样的元数据存储?

我是 BigQuery 的新手.我只想知道,BigQuery 中是否有类似 hive Metastore(所有表、列及其描述的元数据)之类的东西? 解决方案 BigQuery 提供了一些特殊的表格,其内容代表元数据,例如数据集中的表格和视图列表.“元表"是只读的.要访问有关数据集中表和视图的元数据,请在查询的 SELECT 语句中使用 __TABLES_SUMMARY__ 元表.您可以使用 ..
发布时间:2021-12-28 23:42:26 其他开发

如何在 Hive 中获取数组中的前 n 个元素

我在Hive中使用split函数创建了一个数组,如何从数组中获取前n个元素,并且想遍历子数组 代码示例 从表中选择 col1其中 split(col2, ',')[0:5] '[0:5]'看起来像python风格,但在这里行不通. 解决方案 这是一个棘手的问题. 首先从这里 获取砖房罐子然后将其添加到 Hive 中:add jar/path/to/jars/brickhous ..
发布时间:2021-12-28 23:42:15 其他开发

Hive 连接优化

我有两组数据都存储在 S3 存储桶中,我需要在 Hive 中处理这些数据并将输出存储回 S3.每个数据集的样本行如下: DataSet 1: {"requestId":"TADS6152JHGJH5435", "customerId":"ASJHAGSJH","sessionId":"172356126"}数据集2:{"requestId":"TADS6152JHGJH5435","userAg ..
发布时间:2021-12-28 23:42:09 其他开发

使用参数在 Hive 中创建视图

我有一个表格,其中包含属于不同日期的行.我想创建一个视图,它应该根据日期为我提供数据 创建查看新用户作为选择 DISTINCT T1.uuidFROM user_visit T1WHERE T1.firstSeen="20140522"; 我不想修复 WHERE T1.firstSeen="20140522";它可以是任何日期,如 20140525 等.有什么办法可以创建一个以日期为参数的视图 ..
发布时间:2021-12-28 23:41:59 其他开发

在 SQL 中将数据从宽格式转换为长格式

我有一些格式的数据: VAR1 VAR2 Score1 Score2 Score3乙 1 2 3 我需要把它转换成格式 VAR1 VAR2 VarName 值A B 分数 1 1A B 分数 2 2A B 分数 3 3 如何在 SQL 中执行此操作? 解决方案 如果你的分数列是固定的并且你不需要聚合,你可以使用多个 SELECT 和 UNION ALL 语句以生成您请求的数据形状. ..
发布时间:2021-12-28 23:41:53 其他开发

如何编译 Hive UDF

我正在尝试编译此 UDF: package com.dataminelab.hive.udf;导入 org.apache.hadoop.hive.ql.exec.UDF;导入 org.apache.hadoop.io.Text;导入 java.security.*;/*** 计算字符串的md5*/公共最终类 Md5 扩展了 UDF {公共文本评估(最终文本){如果(s == null){返回空; ..
发布时间:2021-12-28 23:41:43 Java开发

如何获取 Hive 编译器生成的 MapReduce Jobs 源代码?

我想知道 SQL Hive 的编译器生成的代码是什么(即如果我执行一个sql语句我想看看SQL hive的编译器生成的MapReduce作业的代码. 我怎样才能得到它? 解决方案 对于 Hive,它将物理计划序列化为 xml 文件(http://www.slideshare.net/nzhang/hive-anatomy).所以,我认为用户无法获得 hadoop 的真正源代码.要获取 ..
发布时间:2021-12-28 23:41:35 其他开发

Hive 数据存储在哪里?

我对 hive 在哪里存储数据感到有些困惑. 它是将数据存储在 HDFS 还是 RDBMS 中?Hive Meta store 是否使用 RDBMS 来存储 hive 表的元数据?? 提前致谢!! 解决方案 Hive 数据存储在 之一中Hadoop 兼容文件系统:S3、HDFS 或其他兼容文件系统. Hive 元数据像 MySQL 一样存储在 RDBMS 中,参见 支持的 ..
发布时间:2021-12-28 23:41:28 其他开发

在hadoop中合并小文件

我在 HDFS 中有一个目录(最终目录),其中每分钟加载一些文件(例如:10 mb).一段时间后,我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断地将文件推送到最终目录.这是一个持续的过程. 所以我第一次需要将前 10 个文件组合成一个大文件(例如:large.txt)并将文件保存到 Finaldir. 现在我的问题是我将如何获得不包括前 10 个文件的接下来的 1 ..
发布时间:2021-12-28 23:41:22 其他开发

Hive 解释计划理解

有没有什么合适的资源可以让我们完全理解hive生成的解释计划?我曾尝试在 wiki 中搜索它,但找不到完整的指南来理解它.这是 wiki,它简要解释了解释计划的工作原理.但我需要有关如何推断解释计划的更多信息.https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain 解决方案 我会尽量解释我所知道的. ..
发布时间:2021-12-28 23:41:15 其他开发

Hive QL - 每个项目的行数限制

如果我在 where 子句中列出了多个项目,如何将列表中每个项目的结果限制为 N? 例如: select a_id,b,c, count(*), as sumrequests来自表名在哪里a_id in (1,2,3)按 a_id,b,c 分组限制 10000 解决方案 听起来您的问题是要获得每个 a_id 的前 N ​​个.您可以使用 Hive 11 中引入的窗口函数来完成此操作.例 ..
发布时间:2021-12-28 23:41:07 其他开发

数组转换 Java 8 与 Java 9

有没有人知道为什么这段代码适用于 java 8 而不适用于 java 9 String[] strings = (String[]) Arrays.asList("foo", "bar").toArray();对于(字符串字符串:字符串){System.out.println(string);} 我知道我们可以在执行 toArray 而不是强制转换时指定类型.但是我在调​​试我们的一个依赖项 ..
发布时间:2021-12-28 23:41:01 Java开发

hive 表中 count(*) 结果错误

我在 HIVE 中创建了一个表 如果不存在则创建表 daily_firstseen_analysis (第一次看到 STRING,类别字符串,圈STRING,指定字符串,语言字符串,osType 字符串,算INT)PARTITIONED by (day STRING)行格式分隔以 '\t' 结尾的字段作为兽人存储; count(*) 没有给我正确的结果 hive>从daily_firstse ..
发布时间:2021-12-28 23:40:51 其他开发