hive相关内容
如果我在 hive 中有一个使用 JOIN 的查询,让我们说两个表 上的 LEFT OUTER JOIN 或 INNER JOIN>ON 任何列,那么我如何知道它在后端 MapReduce 中转换为哪种类型的 JOIN(即 Map-side JOIN 或 Reduce-side JOIN)? 谢谢. 解决方案 使用 explain select ... 并检查计划.它解释了 map
..
有人告诉我 count(distinct ) 可能会导致数据倾斜,因为只使用了一个 reducer. 我使用一个包含 50 亿条数据和 2 个查询的表进行了测试, 查询 A: 从 tableA 中选择 count(distinct columnA) 查询 B: 选择 count(columnA) from(从 tableA 中按 columnA 分组选择 columnA) 实际
..
我在 3 个集群上安装了 Hadoop 和 Hive.我可以从运行 HIVE 的集群节点登录到 hive. root@NODE_3 hive]# hive 使用配置初始化日志记录jar:文件:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.properties蜂巢历史文件=/tmp/root/hive_job_log
..
举个简单的例子, select * from tablename; 不启动 map reduce,而 select count(*) from tablename; 确实如此.决定何时使用 map reduce(通过 hive)的一般原则是什么? 解决方案 一般来说,任何类型的聚合,例如 min/max/count 都需要 MapReduce 作业.这可能无法为您解释一切.
..
我有一些我想用 Hive 查询的 Web 服务器日志.HDFS 中的目录结构如下所示: /data/access/web1/2014/09/data/access/web1/2014/09/access-20140901.log[... 等等 ...]/data/access/web1/2014/10/data/access/web1/2014/10/access-20141001.log[..
..
这是下面的 Hive 表 如果不存在则创建外部表 SampleTable(USER_ID BIGINT,NEW_ITEM ARRAY>) 这就是上表中的数据- 1015826235 [{"product_id":220003038067,"timestamps":"1340321132000"},{"p
..
一些背景信息: 我正在使用 Dataiku DSS、HDFS 和分区数据集.我有一个正在运行的特定作业(Hive 查询),它有两个输入数据集 - 一个是非常大的分区数据集,另一个是小型(约 250 行,2 列)非分区数据集.我们称分区表为 A,非分区表为 B. 问题: 查询格式如下, 选择 a.f1, f2, ..., fn从 A 作为左连接 B 作为 b开 a.f1 = b.
..
我总是对在 hive 中为特定任务创建多少映射器和减少器感到困惑.例如,如果块大小 = 128mb,并且有 365 个文件,每个文件映射到一年中的一个日期(每个文件大小 = 1 mb).有基于日期列的分区.在这种情况下,在加载数据期间将运行多少个映射器和缩减器? 解决方案 Mappers: 映射器的数量取决于各种因素,例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数.另请参
..
我有一个可以并行化的解决方案,但我(还)没有使用 hadoop/nosql 的经验,我不确定哪种解决方案最适合我的需求.理论上,如果我有无限的 CPU,我的结果应该会立即返回.因此,任何帮助将不胜感激.谢谢! 这是我所拥有的: 1000 个数据集 数据集键: 所有数据集都有相同的键 100 万个密钥(以后可能是 10 或 2000 万个) 数据集列: 每个数据集都有相
..
我有一个具有以下列的配置单元表 A 用户项目分数U1 I1 S1U1 I2 S2..................... 我要的是表B这样的格式 USER ITEMS #ITEMS 是一个数组U1 [I2,I3,...] #item按照score降序排列,limit 5 对于少于 5 个项目的用户,只需将包含项目的数组按降序排列即可. 解决方案 应该是这样的: select U
..
据我了解,Hbase 是 Hadoop 数据库,Hive 是数据仓库. Hive 允许创建表并在其中存储数据,您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做所有这些,为什么我们应该使用 hbase?我们可以单独使用蜂巢吗?我很困惑:( 解决方案 简单来说,使用 hive,您可以在表上触发类似 SQL 的查询(有一些例外),并用于批处理操作
..
我想从 HDFS 中包含 epoch 的文本文件创建一个外部 Hive 表.假设该文件位于 /user/me/test.txt.这是文件内容: 13541839211354183922 我已经安装了 Hive 0.8.1 并且应该能够使用类型 Timestamp,所以我创建了表: 蜂巢>创建外部表 test1(纪元时间戳)位置'/用户/我'; 然后我查询了表: SELECT * FROM
..
文档说时间戳支持以下转换: •浮点数值类型:解释为 UNIX 时间戳,以秒为单位,精度为小数 首先,我不知道如何解释.如果我有一个时间戳 2013-01-01 12:00:00.423,我可以将其转换为保留毫秒的数字类型吗?因为这就是我想要的. 更一般地说,我需要在时间戳之间进行比较,例如 从 mytable 中选择 maxts - mints 作为延迟 其中 maxts 和
..
为了有效利用 Hadoop 中的 map-reduce 作业,我需要将数据存储在 hadoop的序列文件格式.但是,目前数据只有平面 .txt 格式.谁能建议我可以将 .txt 文件转换为序列文件的方法? 解决方案 所以更简单的答案就是一个具有 SequenceFile 输出的“身份"作业. 在java中看起来像这样: public static void main(String
..
我有一个要求,我需要返回一列的先前值直到 1000 行,并为我的下一步获取先前的 1000 个日期,但是表中的该列不存在所有这 1000 个先前的日期.但我需要那些缺失的日期才能从查询的输出中获取. 当我尝试在查询下运行时,它没有显示当前日期的 1000 个以前的日期值. 示例:假设只有 2 个日期可用于日期列 日期2019-01-162019-01-19 我想出了一个查询来取回
..
我的 hive 表中有 day='2019-01-01' 的数据,我想将相同的数据复制到 2019 年 1 月的整个月份.(即在'2019-01-02','2019-01-03'...'2019-01-31') 我正在尝试关注,但数据仅插入到“2019-01-02"而不是“2019-01-03"中. INSERT OVERWRITE TABLE db_t.students PARTITIO
..
如何生成包含“Dayofweek"、“weekofyear"等字段的日期表;并且行等于从 2010-01-01 到 current_date 的日期如下: Dayofweek Dayofmonth Dayofyear Weekofmonth Weekofyear 假期2010-01-01 6 1 1 1 1 是2010-01-02 7 2 2 1 1 否2010-01-03 1 3 3 1 1
..
我无法将 Hive 视为 power BI 中列出的数据源.有没有办法将 Hive 数据库与 power bi desktop 连接起来.还有什么限制吗? 解决方案 需要在系统中安装并配置 Hive ODBC Driver 才能与 Power BI 连接.成功配置 ODBC 驱动程序后,在 Power BI 中使用以下方式进行连接. 首页 -> 获取数据 -> 更多 -> 其他 ->
..
表 t1: 人 |访问 |code_num1 |code_desc11 1 100 场外交易1 2 101 SED2 3 102 CHM3 4 103 过时3 4 103 过时4 5 101 SED 表 t2: 人 |访问 |code_num2 |code_desc21 1 104 二甲醚1 6 104 二甲醚3 4 103 过时3 4 103 过时3 7 103 过时4 5 104 二甲
..
我想使用 SAS/ACESS 9.3M2 接口将 sas 与我的 Hive 连接起来.我的问题是,sas 是否将 hive 立方体导入 sas 环境并在那里查询?或者,为了报告的目的,它再次命中 hive,因此它运行 MR,这将我的报告性能降低到 2-4 秒以上. 如果将 hive 表导入其环境,与普通 sql 多维数据集相比,其性能如何? 我对 sas 完全陌生,我希望我的报告在 2
..