hive 第4页 - IT屋-程序员软件开发技术分享社区

Hive 中的 JOIN 触发 MapReduce 中的哪种类型的 JOIN?

如果我在 hive 中有一个使用 JOIN 的查询，让我们说两个表上的 LEFT OUTER JOIN 或 INNER JOIN>ON 任何列，那么我如何知道它在后端 MapReduce 中转换为哪种类型的 JOIN(即 Map-side JOIN 或 Reduce-side JOIN)? 谢谢. 解决方案使用 explain select ... 并检查计划.它解释了 map ..

发布时间：2022-01-13 23:55:49 hadoop hive mapreduce hive-configuration 其他开发

Hive 分组中的减速器数量和计数(不同)

有人告诉我 count(distinct ) 可能会导致数据倾斜，因为只使用了一个 reducer. 我使用一个包含 50 亿条数据和 2 个查询的表进行了测试，查询 A: 从 tableA 中选择 count(distinct columnA) 查询 B: 选择 count(columnA) from(从 tableA 中按 columnA 分组选择 columnA) 实际 ..

发布时间：2022-01-13 23:51:42 hadoop hive mapreduce hiveql hive-configuration 其他开发

java.sql.SQLException: 无法启动数据库 'metastore_db' 错误，同时使用 hive 初始化数据库

我在 3 个集群上安装了 Hadoop 和 Hive.我可以从运行 HIVE 的集群节点登录到 hive. root@NODE_3 hive]# hive 使用配置初始化日志记录jar:文件:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.properties蜂巢历史文件=/tmp/root/hive_job_log ..

发布时间：2022-01-13 23:49:07 hadoop permissions mapreduce hive hdfs 其他开发

Hive 如何决定何时使用 map reduce 何时不使用?

举个简单的例子， select * from tablename; 不启动 map reduce，而 select count(*) from tablename; 确实如此.决定何时使用 map reduce(通过 hive)的一般原则是什么? 解决方案一般来说，任何类型的聚合，例如 min/max/count 都需要 MapReduce 作业.这可能无法为您解释一切. ..

发布时间：2022-01-13 23:20:01 hadoop mapreduce hive 其他开发

Hive 可以递归地进入没有分区或编辑 hive-site.xml 的子目录吗?

我有一些我想用 Hive 查询的 Web 服务器日志.HDFS 中的目录结构如下所示: /data/access/web1/2014/09/data/access/web1/2014/09/access-20140901.log[... 等等 ...]/data/access/web1/2014/10/data/access/web1/2014/10/access-20141001.log[.. ..

发布时间：2022-01-13 23:14:25 hadoop mapreduce hive 其他开发

在 Hive 中分解结构数组

这是下面的 Hive 表如果不存在则创建外部表 SampleTable(USER_ID BIGINT，NEW_ITEM ARRAY>) 这就是上表中的数据- 1015826235 [{"product_id":220003038067,"timestamps":"1340321132000"},{"p ..

发布时间：2022-01-13 23:13:56 hadoop mapreduce hive hiveql 其他开发

为什么这个 MapReduce 中最后的 reduce 步骤非常慢?(HiveQL、HDFS MapReduce)

一些背景信息: 我正在使用 Dataiku DSS、HDFS 和分区数据集.我有一个正在运行的特定作业(Hive 查询)，它有两个输入数据集 - 一个是非常大的分区数据集，另一个是小型(约 250 行，2 列)非分区数据集.我们称分区表为 A，非分区表为 B. 问题: 查询格式如下，选择 a.f1, f2, ..., fn从 A 作为左连接 B 作为 b开 a.f1 = b. ..

发布时间：2022-01-13 23:10:06 performance hive mapreduce hdfs reduce 其他开发

将为 hive 中的分区表创建多少个 mapper 和 reduce

我总是对在 hive 中为特定任务创建多少映射器和减少器感到困惑.例如，如果块大小 = 128mb，并且有 365 个文件，每个文件映射到一年中的一个日期(每个文件大小 = 1 mb).有基于日期列的分区.在这种情况下，在加载数据期间将运行多少个映射器和缩减器? 解决方案 Mappers: 映射器的数量取决于各种因素，例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数.另请参 ..

发布时间：2022-01-13 23:08:12 hadoop hive mapreduce reduce mapper 其他开发

实时查询/聚合数百万条记录-hadoop?hbase?卡珊德拉?

我有一个可以并行化的解决方案，但我(还)没有使用 hadoop/nosql 的经验，我不确定哪种解决方案最适合我的需求.理论上，如果我有无限的 CPU，我的结果应该会立即返回.因此，任何帮助将不胜感激.谢谢！这是我所拥有的: 1000 个数据集数据集键: 所有数据集都有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集都有相 ..

发布时间：2022-01-13 13:59:22 nosql hadoop cassandra hbase hive 其他开发

在此配置单元表的类别和限制 5 内排序

我有一个具有以下列的配置单元表 A 用户项目分数U1 I1 S1U1 I2 S2..................... 我要的是表B这样的格式 USER ITEMS #ITEMS 是一个数组U1 [I2,I3,...] #item按照score降序排列，limit 5 对于少于 5 个项目的用户，只需将包含项目的数组按降序排列即可. 解决方案应该是这样的: select U ..

发布时间：2022-01-13 13:52:42 sql hive nosql 其他开发

hbase和hive有什么区别?(Hadoop)

据我了解，Hbase 是 Hadoop 数据库，Hive 是数据仓库. Hive 允许创建表并在其中存储数据，您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做所有这些，为什么我们应该使用 hbase?我们可以单独使用蜂巢吗?我很困惑:( 解决方案简单来说，使用 hive，您可以在表上触发类似 SQL 的查询(有一些例外)，并用于批处理操作 ..

发布时间：2022-01-13 13:45:27 hadoop hive hbase bigdata nosql 其他开发

如何使用列类型 Timestamp 创建外部 Hive 表

我想从 HDFS 中包含 epoch 的文本文件创建一个外部 Hive 表.假设该文件位于 /user/me/test.txt.这是文件内容: 13541839211354183922 我已经安装了 Hive 0.8.1 并且应该能够使用类型 Timestamp，所以我创建了表: 蜂巢>创建外部表 test1(纪元时间戳)位置'/用户/我'; 然后我查询了表: SELECT * FROM ..

发布时间：2022-01-13 09:33:19 timestamp hive hiveql 其他开发

如何在蜂巢中获得毫秒精度?

文档说时间戳支持以下转换: •浮点数值类型:解释为 UNIX 时间戳，以秒为单位，精度为小数首先，我不知道如何解释.如果我有一个时间戳 2013-01-01 12:00:00.423，我可以将其转换为保留毫秒的数字类型吗?因为这就是我想要的. 更一般地说，我需要在时间戳之间进行比较，例如从 mytable 中选择 maxts - mints 作为延迟其中 maxts 和 ..

发布时间：2022-01-13 09:12:17 hadoop timestamp hive hiveql 其他开发

如何将 .txt 文件转换为 Hadoop 的序列文件格式

为了有效利用 Hadoop 中的 map-reduce 作业，我需要将数据存储在 hadoop的序列文件格式.但是，目前数据只有平面 .txt 格式.谁能建议我可以将 .txt 文件转换为序列文件的方法? 解决方案所以更简单的答案就是一个具有 SequenceFile 输出的“身份"作业. 在java中看起来像这样: public static void main(String ..

发布时间：2022-01-12 23:43:14 java file hadoop type-conversion hive Java开发

在 Hive 查询中面临生成缺失日期的问题

我有一个要求，我需要返回一列的先前值直到 1000 行，并为我的下一步获取先前的 1000 个日期，但是表中的该列不存在所有这 1000 个先前的日期.但我需要那些缺失的日期才能从查询的输出中获取. 当我尝试在查询下运行时，它没有显示当前日期的 1000 个以前的日期值. 示例:假设只有 2 个日期可用于日期列日期2019-01-162019-01-19 我想出了一个查询来取回 ..

发布时间：2022-01-11 14:38:06 sql date hive calendar hiveql 其他开发

如何将一个分区的数据插入/复制到配置单元中的多个分区?

我的 hive 表中有 day='2019-01-01' 的数据，我想将相同的数据复制到 2019 年 1 月的整个月份.(即在'2019-01-02','2019-01-03'...'2019-01-31') 我正在尝试关注，但数据仅插入到“2019-01-02"而不是“2019-01-03"中. INSERT OVERWRITE TABLE db_t.students PARTITIO ..

发布时间：2022-01-11 14:12:29 hive calendar hiveql date-range hive-partitions 其他开发

如何生成字段等于“Dayofweek"、“weekofyear"的日期表等；并且行等于从 2010-01-01 到 current_date 的日期

如何生成包含“Dayofweek"、“weekofyear"等字段的日期表；并且行等于从 2010-01-01 到 current_date 的日期如下: Dayofweek Dayofmonth Dayofyear Weekofmonth Weekofyear 假期2010-01-01 6 1 1 1 1 是2010-01-02 7 2 2 1 1 否2010-01-03 1 3 3 1 1 ..

发布时间：2022-01-11 14:01:29 sql sql-server hive calendar date-range 数据库

如何将 Hive 与 Power BI 连接

我无法将 Hive 视为 power BI 中列出的数据源.有没有办法将 Hive 数据库与 power bi desktop 连接起来.还有什么限制吗? 解决方案需要在系统中安装并配置 Hive ODBC Driver 才能与 Power BI 连接.成功配置 ODBC 驱动程序后，在 Power BI 中使用以下方式进行连接. 首页 -> 获取数据 -> 更多 -> 其他 -> ..

发布时间：2022-01-10 16:55:22 hive powerbi 其他开发

SAS合并和全外连接的区别

表 t1: 人 |访问 |code_num1 |code_desc11 1 100 场外交易1 2 101 SED2 3 102 CHM3 4 103 过时3 4 103 过时4 5 101 SED 表 t2: 人 |访问 |code_num2 |code_desc21 1 104 二甲醚1 6 104 二甲醚3 4 103 过时3 4 103 过时3 7 103 过时4 5 104 二甲 ..

发布时间：2022-01-08 17:48:41 merge hive sas outer-join hiveql 其他开发

Hadoop 与 SAS 的连接

我想使用 SAS/ACESS 9.3M2 接口将 sas 与我的 Hive 连接起来.我的问题是，sas 是否将 hive 立方体导入 sas 环境并在那里查询?或者，为了报告的目的，它再次命中 hive，因此它运行 MR，这将我的报告性能降低到 2-4 秒以上. 如果将 hive 表导入其环境，与普通 sql 多维数据集相比，其性能如何? 我对 sas 完全陌生，我希望我的报告在 2 ..

发布时间：2022-01-08 17:30:47 hadoop sas hive cloudera olap-cube 其他开发

hive相关内容