hive相关内容

在Hive中使用where子句编写一个嵌套的select语句

我需要在Hive查询中的where子句中执行嵌套选择。示例代码片段如下所示; 从TableA中选择* b $ b其中TA_timestamp>(从TableB中选择timestmp,其中id =“hourDim”) $ b $这是可能的还是我在这里做错了什么,因为我在运行上面的脚本时遇到错误? b 为了进一步阐述我正在尝试做的事情,我有一个cassandra密钥空间,我使用时间戳发 ..
发布时间:2018-05-31 19:42:49 分布式计算/Hadoop

为什么Hive查询不支持IN / EXIST运算符?

我看 Hive Language Manual 并识别Hive查询不支持IN / EXIST运算符,并且他们建议使用LEFT SEMI JOIN作为替换。你知道为什么吗?解决方案 这让我想起Eric Lippert的形式“为什么不C#有Java特性X?“人们不会通过从另一个开始创建语言并删除东西,他们从一开始就决定要实现哪些功能。 在某些时候,蜂巢既不支持IN \ EXISTS子查询, ..
发布时间:2018-05-31 19:42:45 分布式计算/Hadoop

LeaseExpiredException:HDFS上无租约错误(无法关闭文件)

我试图将大数据加载到HIVE中的动态分区表中。 我一直在收到这个错误。如果我没有分区加载数据,它工作正常。如果我使用较小的数据集(使用分区),它也可以正常工作。但对于大型数据集,我开始得到这个错误 错误: 2014-11-10 09:28:01,112错误org.apache.hadoop.hdfs.DFSClient:无法关闭文件 /tmp/hive-username/hi ..
发布时间:2018-05-31 19:42:40 分布式计算/Hadoop

配置单元 - 创建外部表格

查询存储在外部系统中的数据,例如amazon s3 - 避免将这些数据转化为HDFS 任何人都可以详细说明上述说明。 “避免将数据输入HDFS”?加载数据本地命令将有助于将本地文件加载到HDFS,并且HIVE将在顶部应用该格式。 是否可以访问HDFS以外的数据? 是否可以访问超出HDFS的数据? 您可以读取任何Hadoop兼容文件系统上的数据,而不仅仅是HDFS。 ..
发布时间:2018-05-31 19:42:09 分布式计算/Hadoop

配置单元加载特定列

是否可以直接加载特定列,或者我应该加载所有数据并创建第二个表用于选择特定的列? 谢谢 解决方案 是的,你必须加载所有这样的数据: LOAD DATA [LOCAL] INPATH / Your / Path [OVERWRITE] INTO TABLE yourTable; LOCAL表示您的文件位于本地系统而不是HDFS中,OVERWRITE表示当前数据在表中 ..
发布时间:2018-05-31 19:41:55 分布式计算/Hadoop

需要在使用配置单元的表中添加自动增量列

我必须使用配置单元创建一个表。但我想用自动增量列创建该表。 我已经使用Google搜索,但无法找到确切的答案。 如果有人知道它的语法。请分享。 提前致谢。 解决方案 您需要为它使用UDF(用户定义的函数)。我已经成功地在这个链接中使用了UDF http://svn.apache.org/repos/asf/hive/trunk/contrib/src/java/org/ap ..
发布时间:2018-05-31 19:41:13 分布式计算/Hadoop

Spark集成测试的Hive配置

我正在寻找一种配置Hive进行Spark SQL集成测试的方法,以便将表写入临时目录或测试根目录下的某个位置。我的调查显示,这需要在 fs.defaultFS 和 hive.metastore.warehouse.dir c> HiveContext 被创建。 只需设置后者,如本答案所述即不适用于Spark 1.6.1。 val sqlc = new HiveContext(spar ..
发布时间:2018-05-31 19:41:06 分布式计算/Hadoop

Log4j不写入HDFS / Log4j.properties

基于以下配置,我预计我的log4j应该写入HDFS文件夹(/ myfolder / mysubfolder)。但它甚至不创建一个名为hadoop9.log的文件。我尝试在hdfs上手动创建hadoop9.log。 我是否缺少log4j.properties中的任何内容? #定义可被系统属性覆盖的一些默认值 hadoop.root.logger =信息,控制台,RFA,DRFA h ..
发布时间:2018-05-31 19:40:11 分布式计算/Hadoop

在类路径中找不到hive-site.xml

在运行giraph hiverunner的时候,我得到了有关hive-site.xml的类路径的错误,我已经设置了hive-env.sh和bash.bashrc,但是错误仍然存​​在。任何帮助如何设置classpath和解决这个错误.. ??任何其他的东西我需要修改.. ?? 我已经尝试hivejdbc前执行没有任何错误..但工作hadoop与罐子给错误.. 会很好的满足任何帮助。 ..
发布时间:2018-05-31 19:40:03 分布式计算/Hadoop

Concat使用GROUP BY的单列字段

有什么方法可以通过对一列中的字段进行分组来组合/连接字段。 例如: col1 col2 1 aa 1 bb 1 cc 2 dd 2 ee 我想查询如下内容: select col1,concat(col2)from tableName group by col1; 输出应该是: 1 aa,bb,cc 2 dd ..
发布时间:2018-05-31 19:39:53 分布式计算/Hadoop

如何避免为Hive查询生成空的.deflate文件?

当我运行一个Hive查询时,会生成大量空的 .deflate 文件(它们实际上是大约8个字节,我认为它是 .deflate 文件)。我怀疑这是因为查询需要大量的reducer。我想知道是否有一种方法可以避免生成这些空的 .deflate 文件? / p> 解决方案 。 deflate 是默认的 压缩编解码器 Hive 的压缩设置可用于减少 Hive的磁盘空间量 查询 。 ..
发布时间:2018-05-31 19:38:58 分布式计算/Hadoop

配置单元在一个表上运行选择时锁定整个数据库

当在数据库中的任何表上运行select语句时,HIVE 0.13将SHARED锁定整个数据库(我看到一个像LOCK-0000000000这样的节点作为Zookeeper中的数据库节点的子节点)。即使在运行select语句时,HIVE也会在整个模式上创建一个共享锁 - 这将导致数据库中其他表上的CREATE / DELETE语句冻结,直到原始查询完成并释放锁。 有人知道解决方法吗?以下链接建议 ..
发布时间:2018-05-31 19:38:53 分布式计算/Hadoop

Hive SQL编码风格:中间表?

我可以写一些类似(很简单): $ b $我应该在蜂房中创建和删除中间表吗? b drop table if tmp1; create table tmp1 as 从input1中选择a,b,c 其中a> 1和b drop table if tmp2; 创建表tmp2作为 从input2中选择x,y,z 其中x drop table如果存在输出; 创建表格输出 ..
发布时间:2018-05-31 19:38:29 分布式计算/Hadoop

使用Python UDF访问外部文件

我正在使用配置单元和python udf。我定义了一个sql文件,我在其中添加了python udf,并将其称为它。到目前为止这么好,我可以使用我的python函数处理我的查询结果。 但是,在这个时候,我必须在我的python udf中使用一个外部的.txt文件。我将该文件上传到我的集群(与.sql和.py文件相同的目录),并使用以下命令将其添加到我的.sql文件中: 添加文件/home/ ..
发布时间:2018-05-31 19:38:27 Python