hive相关内容

Hive 如何决定何时使用 map reduce 何时不使用?

举个简单的例子, select * from tablename; 不启动 map reduce,而 select count(*) from tablename; 确实如此.决定何时使用 map reduce(通过 hive)的一般原则是什么? 解决方案 一般来说,任何类型的聚合,例如 min/max/count 都需要 MapReduce 作业.这可能无法为您解释一切. ..
发布时间:2022-01-13 23:20:01 其他开发

为什么这个 MapReduce 中最后的 reduce 步骤非常慢?(HiveQL、HDFS MapReduce)

一些背景信息: 我正在使用 Dataiku DSS、HDFS 和分区数据集.我有一个正在运行的特定作业(Hive 查询),它有两个输入数据集 - 一个是非常大的分区数据集,另一个是小型(约 250 行,2 列)非分区数据集.我们称分区表为 A,非分区表为 B. 问题: 查询格式如下, 选择 a.f1, f2, ..., fn从 A 作为左连接 B 作为 b开 a.f1 = b. ..
发布时间:2022-01-13 23:10:06 其他开发

将为 hive 中的分区表创建多少个 mapper 和 reduce

我总是对在 hive 中为特定任务创建多少映射器和减少器感到困惑.例如,如果块大小 = 128mb,并且有 365 个文件,每个文件映射到一年中的一个日期(每个文件大小 = 1 mb).有基于日期列的分区.在这种情况下,在加载数据期间将运行多少个映射器和缩减器? 解决方案 Mappers: 映射器的数量取决于各种因素,例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数.另请参 ..
发布时间:2022-01-13 23:08:12 其他开发

实时查询/聚合数百万条记录-hadoop?hbase?卡珊德拉?

我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的 CPU,我的结果应该会立即返回.因此,任何帮助将不胜感激.谢谢! 这是我所拥有的: 1000 个数据集 数据集键: 所有数据集都有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集都有相 ..
发布时间:2022-01-13 13:59:22 其他开发

在此配置单元表的类别和限制 5 内排序

我有一个具有以下列的配置单元表 A 用户项目分数U1 I1 S1U1 I2 S2..................... 我要的是表B这样的格式 USER ITEMS #ITEMS 是一个数组U1 [I2,I3,...] #item按照score降序排列,limit 5 对于少于 5 个项目的用户,只需将包含项目的数组按降序排列即可. 解决方案 应该是这样的: select U ..
发布时间:2022-01-13 13:52:42 其他开发

hbase和hive有什么区别?(Hadoop)

据我了解,Hbase 是 Hadoop 数据库,Hive 是数据仓库. Hive 允许创建表并在其中存储数据,您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做所有这些,为什么我们应该使用 hbase?我们可以单独使用蜂巢吗?我很困惑:( 解决方案 简单来说,使用 hive,您可以在表上触发类似 SQL 的查询(有一些例外),并用于批处理操作 ..
发布时间:2022-01-13 13:45:27 其他开发

如何使用列类型 Timestamp 创建外部 Hive 表

我想从 HDFS 中包含 epoch 的文本文件创建一个外部 Hive 表.假设该文件位于 /user/me/test.txt.这是文件内容: 13541839211354183922 我已经安装了 Hive 0.8.1 并且应该能够使用类型 Timestamp,所以我创建了表: 蜂巢>创建外部表 test1(纪元时间戳)位置'/用户/我'; 然后我查询了表: SELECT * FROM ..
发布时间:2022-01-13 09:33:19 其他开发

如何在蜂巢中获得毫秒精度?

文档说时间戳支持以下转换: •浮点数值类型:解释为 UNIX 时间戳,以秒为单位,精度为小数 首先,我不知道如何解释.如果我有一个时间戳 2013-01-01 12:00:00.423,我可以将其转换为保留毫秒的数字类型吗?因为这就是我想要的. 更一般地说,我需要在时间戳之间进行比较,例如 从 mytable 中选择 maxts - mints 作为延迟 其中 maxts 和 ..
发布时间:2022-01-13 09:12:17 其他开发

如何将 .txt 文件转换为 Hadoop 的序列文件格式

为了有效利用 Hadoop 中的 map-reduce 作业,我需要将数据存储在 hadoop的序列文件格式.但是,目前数据只有平面 .txt 格式.谁能建议我可以将 .txt 文件转换为序列文件的方法? 解决方案 所以更简单的答案就是一个具有 SequenceFile 输出的“身份"作业. 在java中看起来像这样: public static void main(String ..
发布时间:2022-01-12 23:43:14 Java开发

在 Hive 查询中面临生成缺失日期的问题

我有一个要求,我需要返回一列的先前值直到 1000 行,并为我的下一步获取先前的 1000 个日期,但是表中的该列不存在所有这 1000 个先前的日期.但我需要那些缺失的日期才能从查询的输出中获取. 当我尝试在查询下运行时,它没有显示当前日期的 1000 个以前的日期值. 示例:假设只有 2 个日期可用于日期列 日期2019-01-162019-01-19 我想出了一个查询来取回 ..
发布时间:2022-01-11 14:38:06 其他开发

如何将 Hive 与 Power BI 连接

我无法将 Hive 视为 power BI 中列出的数据源.有没有办法将 Hive 数据库与 power bi desktop 连接起来.还有什么限制吗? 解决方案 需要在系统中安装并配置 Hive ODBC Driver 才能与 Power BI 连接.成功配置 ODBC 驱动程序后,在 Power BI 中使用以下方式进行连接. 首页 -> 获取数据 -> 更多 -> 其他 -> ..
发布时间:2022-01-10 16:55:22 其他开发

SAS合并和全外连接的区别

表 t1: 人 |访问 |code_num1 |code_desc11 1 100 场外交易1 2 101 SED2 3 102 CHM3 4 103 过时3 4 103 过时4 5 101 SED 表 t2: 人 |访问 |code_num2 |code_desc21 1 104 二甲醚1 6 104 二甲醚3 4 103 过时3 4 103 过时3 7 103 过时4 5 104 二甲 ..
发布时间:2022-01-08 17:48:41 其他开发

Hadoop 与 SAS 的连接

我想使用 SAS/ACESS 9.3M2 接口将 sas 与我的 Hive 连接起来.我的问题是,sas 是否将 hive 立方体导入 sas 环境并在那里查询?或者,为了报告的目的,它再次命中 hive,因此它运行 MR,这将我的报告性能降低到 2-4 秒以上. 如果将 hive 表导入其环境,与普通 sql 多维数据集相比,其性能如何? 我对 sas 完全陌生,我希望我的报告在 2 ..
发布时间:2022-01-08 17:30:47 其他开发