hive相关内容

使用配置单元得到异常java.lang.NoClassDefFoundError:org / apache / tez / dag / api / SessionNotRunning

在配置完hadoop 之后,我可以运行hdfs 然后安装配置单元并编辑conf文件以使其在tez上默认运行 但直接使用配置单元时会遇到一些特殊问题: 异常在线程 “主要” java.lang.NoClassDefFoundError:在org.apache.hadoop.hive.ql.session.SessionState.start组织/阿帕奇/ TEZ / DAG / API / ..
发布时间:2018-05-31 19:59:22 Java开发

Hive(查找连续n列中的最小值)

我在Hive中有一个表,里面有5列,比如email,a_first_date,b_first_date,c_first_date,d_first_date。 a,b,c,d是4种不同的动作用户可以采取的并且上表中的4列指示用户进行第一个相应动作的日期。例如,'a_first_date'中的值具有用户执行操作的日期。 输出:我想要的是2列有电子邮件,overall_first_date, ..
发布时间:2018-05-31 19:58:14 分布式计算/Hadoop

Hive分区修剪计算列

我在Hive上有几张表,我的查询正在尝试检索过去x天的数据。 选择Hive在使用直接日期时修剪分区,但在使用公式时进行全表扫描。 * from f_event where date_key> 20160101; 扫描分区.. s3://...key=20160102 [f] s3://...key=20160103 [f] s3://...key=2016010 ..
发布时间:2018-05-31 19:58:03 分布式计算/Hadoop

将数据从一个hbase表复制到另一个

我创建了一个hivetest表,它也创建了名为'hbasetest'的hbase表。现在我想用相同的模式将'hbasetest'数据复制到另一个hbase表(如logdata)中。那么,谁能帮助我如何将数据从'hbasetest'复制到'logdata'而不使用配置单元。 hivetest(cookie字符串,timespent字符串,pageviews字符串,访问字符串,logdate字符串) ..
发布时间:2018-05-31 19:57:56 分布式计算/Hadoop

Hive托管表vs外部表:LOCATION目录

我一直在阅读一些HIVE书籍和教程。其中一本书 - 实践中的Hadoop说: 当您创建一个 外部(非托管)表时,Hive将数据保存在由 指定的目录LOCATION关键字保持不变。但是,如果要执行相同的CREATE命令 并删除EXTERNAL关键字,该表将成为一个托管表, 和Hive会将LOCATION目录的内容移动到/ user / hive / warehouse / stock ..
发布时间:2018-05-31 19:57:12 分布式计算/Hadoop

以“MM / DD / YY”格式转换日期字符串

Hive Metastore包含一个名为problem1的数据库,其中包含一个名为customer的表。客户记录包含9000万个客户记录(90,000,000),每个记录都有一个生日字段。 样本数据(生日粗体) 1904287 Christopher Rodriguez 2003年1月11日 96391595 Thomas Stewart 6/17/1969 2236067 J ..
发布时间:2018-05-31 19:56:50 分布式计算/Hadoop

在Hive中将mm / dd / yyyy转换为yyyy-mm-dd

我有一个日期格式为mm / dd / yyyy的列。如何将其转换为yyyy-mm-dd格式? 试过这个: - hive> select to_date(from_unixtime(unix_timestamp('02 / 22 / 2015','yyyy-mm-dd'))); 但它不起作用 解决方案 您可以试试这个: 从表中选择from_unixtime(unix_time ..
发布时间:2018-05-31 19:56:45 分布式计算/Hadoop

Sqoop导出Oozie工作流失败,未找到文件,从控制台运行时运行

我有一个6节点的hadoop集群。我将数据从MSSQL中提取出来,然后通过Sqoop返回到MSSQL中。 Sqoop导入命令正常工作,并且我可以从控制台(在其中一个hadoop节点上)运行sqoop export命令。下面是我运行的shell脚本: SQLHOST = sqlservermaster.local SQLDBNAME = db1 HIVEDBNAME = db1 ..
发布时间:2018-05-31 19:56:34 分布式计算/Hadoop

Oozie shell脚本操作

我正在探索Oozie管理Hadoop工作流程的功能。我试图设置一个调用一些配置单元命令的shell动作。我的shell脚本hive.sh如下所示: #!/ bin / bash hive -f hivescript 其中hive脚本(已独立测试)创建一些表格等等。我的问题是在何处保留hivescript,然后如何从shell脚本中引用它。 我尝试了两种方式, ..
发布时间:2018-05-31 19:56:15 分布式计算/Hadoop

运行HIVE Join查询时,Reducers停止工作在66.68%

试图加入6张桌子,每张桌子约有500万行。尝试加入在所有表上按升序排序的帐号。地图任务已成功完成,减速器停止工作在66.68%。尝试选择像减少数量增加,并尝试其他选项设置hive.auto.convert.join = true;并设置hive.hashtable.max.memory.usage = 0.9;并设置hive.smalltable.filesize = 25000000L;但结果是 ..
发布时间:2018-05-31 19:55:58 分布式计算/Hadoop

如何为多个用户使用配置单元

现在我希望每个用户都有一个私有的元数据。 示例: 用户呼叫显示表:a1,a2,a3 ... 用户b调用show table:b1,b2,b3 ... 当然,当用户运行查询时,他们无法访问其他用户的表。 b $ b 谢谢。 解决方案 对于新用户,Hive的Metastore是 ,配置为将元数据本地存储在嵌入式Apache Derby 数据库中。不幸的是,这 ..
发布时间:2018-05-31 19:55:08 分布式计算/Hadoop

如何将日期字符串从UTC转换为HIVE中的特定时区?

我的Hive表格有一个日期列和UTC日期字符串。我想要获取特定EST日期的所有行。 我正在尝试执行下面的操作: 从TableName中选择* T 其中TO_DATE(ConvertToESTTimeZone(T.date))=“2014-01-12” 我想知道是否有一个ConvertToESTTimeZone函数,或者我可以实现这个功能吗? 我尝试了以下方法,但它不 ..
发布时间:2018-05-31 19:55:05 分布式计算/Hadoop

如何在配置单元中获取数据库用户名和密码

正在编写jdbc程序来连接hive数据库。我希望用户名和密码在连接URL中提供。 我不知道如何使用配置单元QL获取用户名和密码。 任何人都可以帮助我吗? 线程“main”中的异常java.sql.SQLNonTransientConnectionException:[DataDirect] [Hive JDBC Driver]未为必需属性指定值:PASSWORD at com.d ..
发布时间:2018-05-31 19:54:54 服务器开发

在Spark上通过JDBC从远程配置单元读取数据返回空结果

我需要在spark上对远程hive服务器执行hive查询,但由于某些原因,我只收到列名(没有数据)。 表中的数据,我通过HUE和java jdbc连接进行了检查。 这是我的代码示例: val test = spark.read .option(“url”,“jdbc:hive2://remote.hive.server:10000 / work_base”) .option( ..
发布时间:2018-05-31 19:54:49 分布式计算/Hadoop

如何将Hive数据表移动到MySql?

我已经看过如何将配置单元数据移动到Amazon DynamoDB但不能用于RDBMS像MySQL。下面是我用DynamoDB看到的例子: CREATE EXTERNAL TABLE tbl1(名称字符串,位置字符串) STORED BY'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' TBLPROPERTIES(“dyna ..
发布时间:2018-05-31 19:54:28 数据库

Hive查询不使用索引

我正在分析在hive表上使用索引的影响。我创建了一个包含5列( COL1 , COL2 , COL3 , COL4 , COL5 )并加载100000行。我还在这张桌子上的COL1上创建了一个索引。 我用运行 select * COL1 中的WHERE 子句,它是一个索引列。 在查询运行时,与创建索引之前运行相同查询时相比,我没有看到任何改进。 我对select查询做了EXPLA ..
发布时间:2018-05-31 19:54:21 分布式计算/Hadoop

使用HDFS更改更新Hive外部表

可以说,我从文件myFile.csv(位于HDFS中)创建了Hive外部表“myTable”。 myFile.csv每天都会更改,然后我有兴趣每天更新一次“myTable”。 是否有任何HiveQL查询告诉每天更新表格? 谢谢。 PS 我想知道它是否与目录一样:可以说,我创建当“myDir”包含10个文件时,HDFS目录“myDir”中的Hive分区。第二天“myDI ..
发布时间:2018-05-31 19:54:08 分布式计算/Hadoop

在Hive中永久添加/定义罐子

命令:hive> add myjar.jar 但是每当我登录到配置单元时,我需要使用add cmd添加myjar.jar。 有什么办法可以将它永久添加到Hive Classpath中。 问候,Mohammed Niaz 解决方案 将此添加到您的.hiverc文件中 add jar myjar.jar 如果您需要更多信息,请查看此内容。 ..
发布时间:2018-05-31 19:54:05 分布式计算/Hadoop

hive / hadoop如何确保每个映射器都能处理本地数据?

2个基本问题让我烦恼: 我如何确定每个32个文件hive用来存储我的表格在其独特的机器上? 如果发生这种情况,我怎么能确定,如果配置单元创建32个映射器,它们中的每一个都将在其本地数据上工作? hadoop / hdfs可以保证这种魔力,或者作为智能应用程序的hive确保它会发生? 背景: 我拥有一个由32台机器组成的hive集群,并且: 我的所有表格都是用>“CLUSTER ..
发布时间:2018-05-31 19:53:38 分布式计算/Hadoop