hive 第99页 - IT屋-程序员软件开发技术分享社区

在Pentaho hadoop上创建数据源配置单元

我试着用pentaho hadoop来让Hive Datasource的报表设计师。我用hadoop连接了 $ p $ 连接url：jdbc：hive：// localhost：10000和驱动程序类名称：org.apache.hadoop.hive.jdbc.HiveDriver 然后我创建数据源我指的是Hive数据库访问Table里面的内容。然后当我设计报表并拖动表 ..

发布时间：2018-05-31 19:44:06 hadoop datasource pentaho hive 分布式计算/Hadoop

没有Hadoop的Spark：无法启动

我在Ubuntu 16.04上运行Spark 2.1.0，Hive 2.1.1和Hadoop 2.7.3。我从github下载Spark项目并构建“没有hadoop”版本： ./ dev / make-distribution.sh --name“hadoop2-without-hive”--tgz “-Pyarn，hadoop-provided，hadoop-2.7，parque ..

发布时间：2018-05-31 19:43:59 hadoop apache-spark hive 分布式计算/Hadoop

如何将参数传递给Hive中的Python流式处理脚本？

添加文件replace-nan-with-zeros.py ; SELECT TRANSFORM（...） USING'python replace-nan-with-zeros.py' AS（...） FROM some_table; 我有一个简单的Python脚本：＃！/ usr / bin / env python import sys ..

发布时间：2018-05-31 19:43:39 python hadoop streaming hive Python

hive查询无法通过jdbc生成结果集

我是Hive和Hadoop的新手。在我的教程中，我想创建表格作为 import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import java.sql.DriverManager; public c ..

发布时间：2018-05-31 19:43:24 java hadoop jdbc hive Java开发

Hive创建空表，即使有很多文件

我将一些文件放入包含如下数据的hdfs（ / path / to / directory / ）中; 63 EB44863EA74AA0C5D3ECF3D678A7DF59 62 FABBC9ED9719A5030B2F6A4591EDB180 59 6BF6D40AF15DE2D7E295EAFB9574BBF8 全部命名为 _user_hive_warehou ..

发布时间：2018-05-31 19:43:07 hadoop hive 分布式计算/Hadoop

在Hive中使用where子句编写一个嵌套的select语句

我需要在Hive查询中的where子句中执行嵌套选择。示例代码片段如下所示; 从TableA中选择* b $ b其中TA_timestamp>（从TableB中选择timestmp，其中id =“hourDim”） $ b $这是可能的还是我在这里做错了什么，因为我在运行上面的脚本时遇到错误？ b 为了进一步阐述我正在尝试做的事情，我有一个cassandra密钥空间，我使用时间戳发 ..

发布时间：2018-05-31 19:42:49 hadoop hive hiveql 分布式计算/Hadoop

为什么Hive查询不支持IN / EXIST运算符？

我看 Hive Language Manual 并识别Hive查询不支持IN / EXIST运算符，并且他们建议使用LEFT SEMI JOIN作为替换。你知道为什么吗？解决方案这让我想起Eric Lippert的形式“为什么不C＃有Java特性X？“人们不会通过从另一个开始创建语言并删除东西，他们从一开始就决定要实现哪些功能。在某些时候，蜂巢既不支持IN \ EXISTS子查询， ..

发布时间：2018-05-31 19:42:45 sql hadoop hive 分布式计算/Hadoop

LeaseExpiredException：HDFS上无租约错误（无法关闭文件）

我试图将大数据加载到HIVE中的动态分区表中。我一直在收到这个错误。如果我没有分区加载数据，它工作正常。如果我使用较小的数据集（使用分区），它也可以正常工作。但对于大型数据集，我开始得到这个错误错误： 2014-11-10 09：28：01,112错误org.apache.hadoop.hdfs.DFSClient：无法关闭文件 /tmp/hive-username/hi ..

发布时间：2018-05-31 19:42:40 hadoop hive hdfs 分布式计算/Hadoop

配置单元 - 创建外部表格

查询存储在外部系统中的数据，例如amazon s3 - 避免将这些数据转化为HDFS 任何人都可以详细说明上述说明。 “避免将数据输入HDFS”？加载数据本地命令将有助于将本地文件加载到HDFS，并且HIVE将在顶部应用该格式。是否可以访问HDFS以外的数据？是否可以访问超出HDFS的数据？您可以读取任何Hadoop兼容文件系统上的数据，而不仅仅是HDFS。 ..

发布时间：2018-05-31 19:42:09 hadoop hive 分布式计算/Hadoop

配置单元加载特定列

是否可以直接加载特定列，或者我应该加载所有数据并创建第二个表用于选择特定的列？谢谢解决方案是的，你必须加载所有这样的数据： LOAD DATA [LOCAL] INPATH / Your / Path [OVERWRITE] INTO TABLE yourTable; LOCAL表示您的文件位于本地系统而不是HDFS中，OVERWRITE表示当前数据在表中 ..

发布时间：2018-05-31 19:41:55 hadoop hive 分布式计算/Hadoop

需要在使用配置单元的表中添加自动增量列

我必须使用配置单元创建一个表。但我想用自动增量列创建该表。我已经使用Google搜索，但无法找到确切的答案。如果有人知道它的语法。请分享。提前致谢。解决方案您需要为它使用UDF（用户定义的函数）。我已经成功地在这个链接中使用了UDF http://svn.apache.org/repos/asf/hive/trunk/contrib/src/java/org/ap ..

发布时间：2018-05-31 19:41:13 hadoop hive hiveql 分布式计算/Hadoop

Spark集成测试的Hive配置

我正在寻找一种配置Hive进行Spark SQL集成测试的方法，以便将表写入临时目录或测试根目录下的某个位置。我的调查显示，这需要在 fs.defaultFS 和 hive.metastore.warehouse.dir c> HiveContext 被创建。只需设置后者，如本答案所述即不适用于Spark 1.6.1。 val sqlc = new HiveContext（spar ..

发布时间：2018-05-31 19:41:06 scala hadoop apache-spark hive scalatest 分布式计算/Hadoop

Log4j不写入HDFS / Log4j.properties

基于以下配置，我预计我的log4j应该写入HDFS文件夹（/ myfolder / mysubfolder）。但它甚至不创建一个名为hadoop9.log的文件。我尝试在hdfs上手动创建hadoop9.log。我是否缺少log4j.properties中的任何内容？＃定义可被系统属性覆盖的一些默认值 hadoop.root.logger =信息，控制台，RFA，DRFA h ..

发布时间：2018-05-31 19:40:11 hadoop mapreduce hive log4j hdfs 分布式计算/Hadoop

在类路径中找不到hive-site.xml

在运行giraph hiverunner的时候，我得到了有关hive-site.xml的类路径的错误，我已经设置了hive-env.sh和bash.bashrc，但是错误仍然存在。任何帮助如何设置classpath和解决这个错误.. ??任何其他的东西我需要修改.. ?? 我已经尝试hivejdbc前执行没有任何错误..但工作hadoop与罐子给错误.. 会很好的满足任何帮助。 ..

发布时间：2018-05-31 19:40:03 jdbc hadoop jar hive 分布式计算/Hadoop

Concat使用GROUP BY的单列字段

有什么方法可以通过对一列中的字段进行分组来组合/连接字段。例如： col1 col2 1 aa 1 bb 1 cc 2 dd 2 ee 我想查询如下内容： select col1，concat（col2）from tableName group by col1; 输出应该是： 1 aa，bb，cc 2 dd ..

发布时间：2018-05-31 19:39:53 hadoop hive 分布式计算/Hadoop

如何避免为Hive查询生成空的.deflate文件？

当我运行一个Hive查询时，会生成大量空的 .deflate 文件（它们实际上是大约8个字节，我认为它是 .deflate 文件）。我怀疑这是因为查询需要大量的reducer。我想知道是否有一种方法可以避免生成这些空的 .deflate 文件？ / p> 解决方案。 deflate 是默认的压缩编解码器 Hive 的压缩设置可用于减少 Hive的磁盘空间量查询。 ..

发布时间：2018-05-31 19:38:58 hadoop hive 分布式计算/Hadoop

配置单元在一个表上运行选择时锁定整个数据库

当在数据库中的任何表上运行select语句时，HIVE 0.13将SHARED锁定整个数据库（我看到一个像LOCK-0000000000这样的节点作为Zookeeper中的数据库节点的子节点）。即使在运行select语句时，HIVE也会在整个模式上创建一个共享锁 - 这将导致数据库中其他表上的CREATE / DELETE语句冻结，直到原始查询完成并释放锁。有人知道解决方法吗？以下链接建议 ..

发布时间：2018-05-31 19:38:53 hadoop hive 分布式计算/Hadoop

Hive SQL编码风格：中间表？

我可以写一些类似（很简单）： $ b $我应该在蜂房中创建和删除中间表吗？ b drop table if tmp1; create table tmp1 as 从input1中选择a，b，c 其中a> 1和b drop table if tmp2; 创建表tmp2作为从input2中选择x，y，z 其中x drop table如果存在输出; 创建表格输出 ..

发布时间：2018-05-31 19:38:29 sql hadoop hive 分布式计算/Hadoop

使用Python UDF访问外部文件

我正在使用配置单元和python udf。我定义了一个sql文件，我在其中添加了python udf，并将其称为它。到目前为止这么好，我可以使用我的python函数处理我的查询结果。但是，在这个时候，我必须在我的python udf中使用一个外部的.txt文件。我将该文件上传到我的集群（与.sql和.py文件相同的目录），并使用以下命令将其添加到我的.sql文件中：添加文件/home/ ..

发布时间：2018-05-31 19:38:27 python hadoop hive user-defined-functions Python

在Hive中无法识别刺字符分隔符

正如在使用冰岛刺人物作为Hive中的分隔符在Hive中不识别刺字符分隔符示例表 $ p $ lt; code> CREATE EXTERNAL TABLE IF NOT EXISTS zzzzz_raw（ spot_id INT， activity_type_id INT， activity_type STRING， activity_id INT， activity_ ..

发布时间：2018-05-31 19:38:20 hadoop encoding hive 分布式计算/Hadoop

hive相关内容