hiveql相关内容

在HIVE QL的表格中添加一列

我在HIVE中编写代码以创建一个由1300行和6列组成的表: create table test1作为response_time_min, AVG(response_time_avg)作为response_time_avg, MAX(response_time_max)作为response_time_max,$ b作为response_time_min, SUM(access_cou ..
发布时间:2018-05-31 19:05:12 分布式计算/Hadoop

如何将表从HBase转移到Hive?

我可以在这个问题中阅读以下内容: (我创建了一个表来导入所有的数据,问题在于数据仍然是行,而不是列,所以我为新闻,社交和所有的where子句创建了3个表格,之后我在所以我有6个表,这是不是真正的高性能!) 总结我的问题:在HBase是列家庭被保存为这样的行。 计数verpassen消息1 计数verpassen社交0 计数verpassen全部1 code> ..
发布时间:2018-05-31 19:02:25 分布式计算/Hadoop

自定义映射器和Reducer vs HiveQL

问题陈述: 我需要比较两个表 Table1 和 Table2 并且它们都存储相同的东西。所以我需要比较 Table2 和 Table1 作为 Table1 是通过它进行比较的主表。所以在比较之后,我需要做一个报告: Table2 存在某种差异。这两个表格有大量的数据,大约是TB的数据。所以目前我写了 HiveQL 来进行比较并获取数据。 所以我的问题是哪个更好 PERFORMANCE ..
发布时间:2018-05-31 19:01:32 分布式计算/Hadoop

Hadoop / Hive Collect_list不重复项目

根据这篇文章, Hive 0.12 - Collect_list ,我正在尝试找到Java代码来实现一个UDAF,它将完成这个或类似的功能,但不需要重复序列。 code>返回一个序列 A,A,A,B,B,A,C,C 我想要序列 A,B,A,C 返回。 有人知道Hive 0.12中的一个函数能够完成或编写他们自己的UDAF吗? 一如既往,感谢您的帮助。 解决方案 我在一段时间后 ..
发布时间:2018-05-31 19:01:12 分布式计算/Hadoop

如何优化扫描Hive中的1个巨大文件/表格以确认/检查纬度长点是否包含在wkt几何形状中

我已经对经过长时间的设备ping数据进行了非标准化处理,并创建了一个交叉点 - 产品/笛卡尔产品连接表,其中每行都具有该几何图形的ST_Point(long,lat),geometry_shape_of_ZIP和相关的邮政编码。为了测试目的,我在表格中有大约4,500万行,它的产量将增加到每天大约10亿次。 即使数据变得平坦并且没有连接条件下,查询大约需要2个小时才能完成。有没有更快的方法来 ..
发布时间:2018-05-31 19:00:41 分布式计算/Hadoop

“太多读取失败”同时使用Hive

我正在对3个节点的hadoop集群运行配置单元查询。我收到一个错误,指出“提取失败太多”。我的配置单元查询是: pre $ 插入覆盖表tablename1分区(namep) 选择id,名称,子字符串(名称, 5,2)作为tablename2的namep; 这就是我试图运行的查询。我想要做的就是将数据从tablename2传输到tablename1。任何帮助表示赞赏。 解决方案 ..
发布时间:2018-05-31 18:59:09 分布式计算/Hadoop

'InputFormat,OutputFormat'和'InputFormat'之间的区别是什么? '存储为'蜂巢?

我是Bigdata的新成员,目前正在学习Hive。我理解了InputFormat&作为SerDe的一部分,Hive中的OutputFormat。我也明白'Stored as'是用来存储一个特殊格式的文件,就像InputFormat一样。 但我不明白使用'InputFormat,OutputFormat'和' '存储为'。 任何帮助都是值得赞赏的。 解决方案 Hive有很多关于如何存 ..
发布时间:2018-05-31 18:58:09 分布式计算/Hadoop

Hive将数据选择到结构数组中

我试图在Hive中找到一种方法来从平面源中选择数据并将其输出到命名结构数组中。这是我正在寻找的一个例子... 样本数据: house_id,first_name,last_name 1,bob,jones 1,jenny,jones 2,sally,johnson 3,john,smith 3,barb,smith 所需输出: 1 [{“ ..
发布时间:2018-05-31 18:54:44 分布式计算/Hadoop

使用Hive日期函数而不是硬编码日期字符串时,Hive查询性能很慢?

我有一个每天更新的事务表 table_A 。每天我都会使用 file_date 从外部 table_B 插入新数据到 table_A $ c>字段过滤来自外部 table_B 的必要数据以插入到 table_A 中。然而,如果我使用硬编码日期而不是使用Hive日期函数,则会有巨大的性能差异: - 快速版〜20分钟) SET date_ingest ='2016-12-07'; SE ..
发布时间:2018-05-31 18:54:34 分布式计算/Hadoop

使用参数在Hive中创建视图

我有一个包含属于各种日期的行的表。 我想创建一个视图,它应该给我基于日期的数据 CREATE VIEW newusers AS SELECT DISTINCT T1.uuid FROM user_visit T1 WHERE T1.firstSeen =“20140522”; 我不想修复WHERE T1.firstSeen =“20140522”; 它 ..
发布时间:2018-05-31 18:50:44 分布式计算/Hadoop

Hive QL - 限制每个项目的行数

如果我在一个where子句中列出了多个项目,那么如何将结果限制为N,以便列表中的每个项目? EX: select a_id,b,c,count(*),as sumrequests from table_name where a_id in(1,2,3) group by a_id,b,c limit 10000 解决方案 听起来像你的问题是得到每个a ..
发布时间:2018-05-31 18:48:38 分布式计算/Hadoop

HiveQL和rank()

我无法理解HiveQL的排名()。我在WWW上发现了一些排名UDF的实现,例如爱德华的好例子。我可以加载和访问函数,但我无法让他们做我想做的事。下面是一个详细的例子: 将UDF加载到CLI过程中: $ javac -classpath /home/hadoop/hadoop/hadoop-core-1.0.4.jar:/home/hadoop/hive/lib/hive-exec-0 ..
发布时间:2018-05-31 18:47:41 分布式计算/Hadoop

Hive不支持,存在。我如何编写以下查询?

我有两个表A和B,都有一个列ID。我希望从A中获得不在B中的ID。显而易见的方法是: pre code> SELECT id FROM WHERE id NOT IN(SELECT id FROM B) 不幸的是,Hive不支持in,exists或subqueries。有没有办法实现上述使用连接? 我想到以下内容: SELECT A.id FROM A,B WHERE A ..
发布时间:2018-05-31 18:47:02 分布式计算/Hadoop

Hive - LIKE运算符

我无法弄清楚我是如何处理这个问题的: 这些是我的数据: 表1:表格2: 品牌产品销售 Sony Sony ABCD 1233 Apple Sony 1233 Google Sony aaaa 1233 IBM Apple 123 1233 等Apple 345 1233 IBM 13123 1233 是否有可能过滤查询,我有一张桌子,其中有品牌和总 ..
发布时间:2018-05-31 18:45:30 分布式计算/Hadoop

蜂巢中的增量/增量加载

我有下面的用例: 我的应用程序在 RDBMS DB中有一个包含多年数据 。我们使用 sqoop 将数据导入HDFS,并将其加载到由年,月分区的配置单元表中。 现在,应用程序会更新,并且每天还将新记录插入到RDBMS表格表中。这些更新的记录可以跨历史月份。更新的记录和新的插入记录可以通过更新的时间戳字段确定(它将有当前的日期时间戳记)。现在,问题在于:如何进行增量/增量加载hive表每天使用这 ..
发布时间:2018-05-31 18:43:49 分布式计算/Hadoop

在Hive中添加日期时间分钟

在Hive中有一个函数可以用来在SQL Server中添加分钟(以int为单位)到类似于 DATEADD(datepart,number,date)的日期时间,其中 datepart 可以是分钟: DATEADD(分钟,2,'2014-07 -06 01:28:02')返回 2014-07-06 01:28:02 在另一个Hive的 date_add(string startdate,in ..
发布时间:2018-05-31 18:39:28 分布式计算/Hadoop

像SQL这样的Hive插入查询

我是配置单元的新手,并且想知道是否有将数据插入到像SQL中那样的配置单元表中。我想插入我的数据到蜂巢中,例如 pre $ INSERT INTO tablename VALUES(value1,value2 ..) code> 我已经读过,您可以将数据从文件加载到配置单元表中,或者您可以将数据从一个表导入配置单元表,但是有没有什么办法可以像SQL一样添加数据? 解决方案 这里 ..
发布时间:2018-05-31 18:32:51 分布式计算/Hadoop