hive相关内容

如何在没有hadoop的情况下使用Hive

我是nosql解决方案中的新成员,并希望与Hive一起玩。但安装hdfs / hadoop需要很多资源和时间(也许没有经验,但我没有时间待办事项)。 是否有一些解决方案可以在没有hdfs / hadoop的本地机器上安装和使用Hive? 解决方案 是的,您可以在没有hadoop 的情况下运行配置单元1.在您的本地系统上创建您的仓库 2.将默认fs作为文件:/// 比您可以运行hive ..
发布时间:2018-05-31 19:52:08 分布式计算/Hadoop

将hive表导出为hdfs中的csv

我知道在Hive中将表保存到csv(或其他文本文件)时存在分隔符的已知问题。所以我想知道你们是否可以帮我解决这个问题。 我有一个现有的表(表A),我想将它保存为csv格式为hdfs。从阅读其他答案,我相信我将不得不首先创建一个外部表(但我不确定整个外观如何)。 任何人都可以帮忙吗? 解决方案 在hive shell中试试这个: INSERT OVERWRITE LOCA ..
发布时间:2018-05-31 19:51:29 分布式计算/Hadoop

何时使用Hcatalog及其优点

我是Httplog(HCAT)的新手,我们想知道我们使用HCAT的哪些用例/场景,使用HCAT的好处,是否可以从HCatlog获得任何性能改进。任何人都可以提供关于何时使用Hcatlog的信息。Apache Hadoop是一个Hadoop的表和存储管理层,可以使用户使用不同的数据处理工具 - Apache Pig,Apache Map / Reduce和Apache Hive - 可以更轻松地在网 ..
发布时间:2018-05-31 19:49:08 分布式计算/Hadoop

插入蜂巢中不存在的地方

在ansi sql中,我需要这个等效的hive语法 insert into tablea (id) 从tableb 中选择id 其中id不在(从tablea中选择id) 解决方案 使用左外部连接和一个过滤器tablea.id为空: 插入覆盖到tablea(id) 从表b中选择b.id b left外连接表tablea a.b $ b上的 其中a.i ..
发布时间:2018-05-31 19:48:28 分布式计算/Hadoop

Hive中的CRUD操作

我试图在Hive中执行CRUD操作,并且能够成功运行插入查询,但是当我尝试运行更新并删除以下异常时。 $ b FAILED:SemanticException [错误10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。 我跑过的查询列表 CREATE TABLE students(name VARCHAR(64) ,年龄INT,gpa DECIMAL(3,2)) 按(年 ..
发布时间:2018-05-31 19:48:03 分布式计算/Hadoop

如何加载和存储nvarchar

堆栈:使用Ambari 2.1安装HDP-2.3.2.0-2950 我在下面的步骤: 使用Sqoop将SQL服务器表加载到HDFS 在Hive中创建EXTERNAL表 在执行sqoop import命令时,我没有使用与charset / unicode / utf-8有关的任何东西,并且导入成功 创建Hive外部表时,我想知道我应该为原始sql服务器表中的nvarchar列选 ..
发布时间:2018-05-31 19:48:00 分布式计算/Hadoop

使用Sqoop从MySQL导入到Hive

我必须通过Sqoop将MySQL表(具有复合主键)中的4亿行以上的行导入到PARTITIONED Hive表Hive中。该表具有两年的数据,列出发日期范围从20120605到20140605,以及一天的成千上万条记录。我需要根据出发日期对数据进行分区。 版本: Apache Hadoop - 1.0。 4 Apache Hive - 0.9.0 Apache Sqoop - ..
发布时间:2018-05-31 19:46:32 数据库

我如何确保RegexSerDe可用于我的Hadoop节点?

我试图用Hive攻击分析网络日志的问题,并且我已经看到了很多示例,但我似乎无法找到任何具有此特定问题的人。 以下是我所处的位置:我已经设置了AWS ElasticMapReduce群集,我可以登录,然后启动Hive。我确保添加jar hive-contrib-0.8.1.jar ,并且它说它已加载。我创建了一个名为 event_log_raw 的表格,其中包含几个字符串列和一个正则表达式。 ..

更改配置单元中的列类型

我昨天刚开始学习配置单元,并且坚持改变配置单元中列的类型。我想问问,如果列类型的改变对他们有某种限制,因为我只能做特定类型的更改,例如我可以将int转换为double,将字符串转换为double,将double转换为字符串,但不能将字符串更改为int,double ALTER TABLE学生CHANGE rollno rollno int; FAILED:执行错误,从org.apach ..
发布时间:2018-05-31 19:44:32 分布式计算/Hadoop

Spark 2.2查询Hive表时,Dataframe上的Thrift服务器错误NumberFormatException

我有Hortonworks HDP 2.6.3运行Spark2(v2.2)。我的测试用例非常简单: 使用一些随机值创建一个Hive表。 Hive at port 10000 打开Spark Thrift服务器(10016)通过10016查询Hive表 但是,由于NumberFormatException的原因,我无法从Spark中获取数据。 p> 下面是我的测试用例: ..
发布时间:2018-05-31 19:44:22 Python

Hive中的日期差异小于15分钟

以下是我的查询,其中最后一行我试图查看日期之间的差异是否在15分钟内。但是每当我运行下面的查询。 pre $ SELECT TT.BUYER_ID,COUNT(*)FROM (SELECT testingtable1。 buyer_id,testingtable1.item_id,testingtable1.created_time from(选择user_id,prod_and_ts.p ..
发布时间:2018-05-31 19:44:14 分布式计算/Hadoop