hive相关内容
我试着用pentaho hadoop来让Hive Datasource的报表设计师。 我用hadoop连接了 $ p $ 连接url:jdbc:hive:// localhost:10000和 驱动程序类名称:org.apache.hadoop.hive.jdbc.HiveDriver 然后我创建数据源我指的是Hive数据库访问Table里面的内容。 然后当我设计报表并拖动表
..
我在Ubuntu 16.04上运行Spark 2.1.0,Hive 2.1.1和Hadoop 2.7.3。 我从github下载Spark项目并构建“没有hadoop”版本: ./ dev / make-distribution.sh --name“hadoop2-without-hive”--tgz “-Pyarn,hadoop-provided,hadoop-2.7,parque
..
添加文件replace-nan-with-zeros.py ; SELECT TRANSFORM(...) USING'python replace-nan-with-zeros.py' AS(...) FROM some_table; 我有一个简单的Python脚本: #!/ usr / bin / env python import sys
..
我是Hive和Hadoop的新手。在我的教程中,我想创建表格作为 import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import java.sql.DriverManager; public c
..
我将一些文件放入包含如下数据的hdfs( / path / to / directory / )中; 63 EB44863EA74AA0C5D3ECF3D678A7DF59 62 FABBC9ED9719A5030B2F6A4591EDB180 59 6BF6D40AF15DE2D7E295EAFB9574BBF8 全部命名为 _user_hive_warehou
..
我需要在Hive查询中的where子句中执行嵌套选择。示例代码片段如下所示; 从TableA中选择* b $ b其中TA_timestamp>(从TableB中选择timestmp,其中id =“hourDim”) $ b $这是可能的还是我在这里做错了什么,因为我在运行上面的脚本时遇到错误? b 为了进一步阐述我正在尝试做的事情,我有一个cassandra密钥空间,我使用时间戳发
..
我看 Hive Language Manual 并识别Hive查询不支持IN / EXIST运算符,并且他们建议使用LEFT SEMI JOIN作为替换。你知道为什么吗?解决方案 这让我想起Eric Lippert的形式“为什么不C#有Java特性X?“人们不会通过从另一个开始创建语言并删除东西,他们从一开始就决定要实现哪些功能。 在某些时候,蜂巢既不支持IN \ EXISTS子查询,
..
我试图将大数据加载到HIVE中的动态分区表中。 我一直在收到这个错误。如果我没有分区加载数据,它工作正常。如果我使用较小的数据集(使用分区),它也可以正常工作。但对于大型数据集,我开始得到这个错误 错误: 2014-11-10 09:28:01,112错误org.apache.hadoop.hdfs.DFSClient:无法关闭文件 /tmp/hive-username/hi
..
查询存储在外部系统中的数据,例如amazon s3 - 避免将这些数据转化为HDFS 任何人都可以详细说明上述说明。 “避免将数据输入HDFS”?加载数据本地命令将有助于将本地文件加载到HDFS,并且HIVE将在顶部应用该格式。 是否可以访问HDFS以外的数据? 是否可以访问超出HDFS的数据? 您可以读取任何Hadoop兼容文件系统上的数据,而不仅仅是HDFS。
..
是否可以直接加载特定列,或者我应该加载所有数据并创建第二个表用于选择特定的列? 谢谢 解决方案 是的,你必须加载所有这样的数据: LOAD DATA [LOCAL] INPATH / Your / Path [OVERWRITE] INTO TABLE yourTable; LOCAL表示您的文件位于本地系统而不是HDFS中,OVERWRITE表示当前数据在表中
..
我必须使用配置单元创建一个表。但我想用自动增量列创建该表。 我已经使用Google搜索,但无法找到确切的答案。 如果有人知道它的语法。请分享。 提前致谢。 解决方案 您需要为它使用UDF(用户定义的函数)。我已经成功地在这个链接中使用了UDF http://svn.apache.org/repos/asf/hive/trunk/contrib/src/java/org/ap
..
我正在寻找一种配置Hive进行Spark SQL集成测试的方法,以便将表写入临时目录或测试根目录下的某个位置。我的调查显示,这需要在 fs.defaultFS 和 hive.metastore.warehouse.dir c> HiveContext 被创建。 只需设置后者,如本答案所述即不适用于Spark 1.6.1。 val sqlc = new HiveContext(spar
..
基于以下配置,我预计我的log4j应该写入HDFS文件夹(/ myfolder / mysubfolder)。但它甚至不创建一个名为hadoop9.log的文件。我尝试在hdfs上手动创建hadoop9.log。 我是否缺少log4j.properties中的任何内容? #定义可被系统属性覆盖的一些默认值 hadoop.root.logger =信息,控制台,RFA,DRFA h
..
在运行giraph hiverunner的时候,我得到了有关hive-site.xml的类路径的错误,我已经设置了hive-env.sh和bash.bashrc,但是错误仍然存在。任何帮助如何设置classpath和解决这个错误.. ??任何其他的东西我需要修改.. ?? 我已经尝试hivejdbc前执行没有任何错误..但工作hadoop与罐子给错误.. 会很好的满足任何帮助。
..
有什么方法可以通过对一列中的字段进行分组来组合/连接字段。 例如: col1 col2 1 aa 1 bb 1 cc 2 dd 2 ee 我想查询如下内容: select col1,concat(col2)from tableName group by col1; 输出应该是: 1 aa,bb,cc 2 dd
..
当我运行一个Hive查询时,会生成大量空的 .deflate 文件(它们实际上是大约8个字节,我认为它是 .deflate 文件)。我怀疑这是因为查询需要大量的reducer。我想知道是否有一种方法可以避免生成这些空的 .deflate 文件? / p> 解决方案 。 deflate 是默认的 压缩编解码器 Hive 的压缩设置可用于减少 Hive的磁盘空间量 查询 。
..
当在数据库中的任何表上运行select语句时,HIVE 0.13将SHARED锁定整个数据库(我看到一个像LOCK-0000000000这样的节点作为Zookeeper中的数据库节点的子节点)。即使在运行select语句时,HIVE也会在整个模式上创建一个共享锁 - 这将导致数据库中其他表上的CREATE / DELETE语句冻结,直到原始查询完成并释放锁。 有人知道解决方法吗?以下链接建议
..
我可以写一些类似(很简单): $ b $我应该在蜂房中创建和删除中间表吗? b drop table if tmp1; create table tmp1 as 从input1中选择a,b,c 其中a> 1和b drop table if tmp2; 创建表tmp2作为 从input2中选择x,y,z 其中x drop table如果存在输出; 创建表格输出
..
我正在使用配置单元和python udf。我定义了一个sql文件,我在其中添加了python udf,并将其称为它。到目前为止这么好,我可以使用我的python函数处理我的查询结果。 但是,在这个时候,我必须在我的python udf中使用一个外部的.txt文件。我将该文件上传到我的集群(与.sql和.py文件相同的目录),并使用以下命令将其添加到我的.sql文件中: 添加文件/home/
..
正如在使用冰岛刺人物作为Hive中的分隔符 在Hive中不识别刺字符分隔符 示例表 $ p $ lt; code> CREATE EXTERNAL TABLE IF NOT EXISTS zzzzz_raw( spot_id INT, activity_type_id INT, activity_type STRING, activity_id INT, activity_
..