hive 第95页 - IT屋-程序员软件开发技术分享社区

Hive（Bigdata） - 分段和索引之间的区别

Hive中一个表的分区和索引之间的主要区别是什么？解决方案主要区别在于目标：索引 Hive索引的目标是提高查询查询在表的某些列上的速度。如果没有索引，那么谓词如'WHERE tab1.col1 = 10'的查询将加载整个表或分区并处理所有行。但是，如果col1存在索引，那么只需要加载和处理文件的一部分。索引变得更加重要当表格变得非常大时，现在你无疑知道，Hive在 ..

发布时间：2018-05-31 20:20:21 hadoop mapreduce hive bigdata 分布式计算/Hadoop

阶段1的Hadoop作业信息：减速器的数量始终显示为1.我无法更改它。我如何改变它？

我在Hadoop群集上使用Hive。每当我尝试运行hive查询时，它总是显示为 Stage-1的Hadoop作业信息：减速器数量：1 我已经使用了以下Hive配置： hive.exec.reducers.bytes.per.reducer = 1000000000 hive.exec.reducers.max = 999 请告诉我如何增加减速器数量。 ..

发布时间：2018-05-31 20:17:25 hadoop hive 分布式计算/Hadoop

配置单元 - 分区上的查询不会返回任何内容

我有一个正在被特定开始日期（ds）分区的表格。我可以查询最新的分区（前一天的数据），它将使用分区罚款。 hive>从vtc4中选择count（1），其中ds ='2012-11-01'; ...垃圾... MapReduce作业推出：作业0：映射：1减少：1累计CPU：6.43秒HDFS读取：46281957 HDFS写入：7 SUCCESS Total MapReduce ..

发布时间：2018-05-31 20:16:05 hadoop hive 分布式计算/Hadoop

从多个服务器加载数据时避免数据复制

我有十几台Web服务器，每台服务器都将数据写入日志文件。在每个小时的开始，使用运行命令的cron脚本将前一小时的数据加载到配置单元中： hive -e“LOAD DATA LOCAL INPATH'myfile.log'INTO TABLE my_table PARTITION（dt ='2015-08-17-05'）” 在某些情况下，命令失败并以0以外的代码退出，在这种情 ..

发布时间：2018-05-31 20:14:34 hadoop hive 分布式计算/Hadoop

如何在--map-column-hive中使用Sqoop导入命令？

我试图将Teradata的数据平铺到配置单元中。我想按照下面的步骤： $ b $ 1）创建Hue中所有必填字段的Hive表格。 2）通过使用Sqoop导入命令以及 - map-column-hive 属性以将Teradata中的数据加载到配置单元。从Sqoop导入命令指向已经创建的Hive表，以便Sqooped数据应该放置在相应的Hive表中？解决方案 p>您可以使用shell和aw ..

发布时间：2018-05-31 20:14:32 hadoop hive sqoop 分布式计算/Hadoop

基于时间的桶记录（kafka-hdfs-connector）

我试图使用Confluent平台提供的kafka-hdfs-connector将来自Kafka的数据复制到Hive表中。虽然我能够成功地做到这一点，但我想知道如何根据时间间隔来分段传入的数据。例如，我希望每5分钟创建一个新的分区。我试过了 io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner with partition.du ..

发布时间：2018-05-31 20:13:32 hadoop hive apache-kafka kafka-consumer-api kafka-producer-api 分布式计算/Hadoop

我对蜂房不够熟悉，所以我在这里。我们正在使用Oozie来链接一堆配置单元。我的任务是优化已在我们的生产环境中运行的应用程序。业务合作伙伴不希望花费比1.5小时更长的时间。我注意到的第一件事情之一就是在这一个工作流程中大约有90个oozie动作。我们还与其他应用程序共享纱线队列。其中一半是hive2操作，每个Hive QL操作只能执行一个HQL语句。 HiveQL操作之间有时会出现延迟，因为Oozi ..

发布时间：2018-05-31 20:13:29 java hadoop hive oozie Java开发

将序列文件数据加载到使用存储的序列文件失败创建的配置单元表中

使用下面的sqoop import命令将序列文件中的内容从MySQL导入到HDFS中。 sqoop import --connect“jdbc： mysql：//quickstart.cloudera：3306 / retail_db“ --username retail_dba --password cloudera $ b $ --table命令 --target-dir / us ..

发布时间：2018-05-31 20:13:15 hadoop hive sqoop apache-sqoop 分布式计算/Hadoop

Cloudera Hive：在哪里添加json-serde-1.3.7 jar文件

我正在使用cloudera 5.8.0 首先我运行这个命令：蜂房> ADD JAR /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar; 将[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]添加到类路径添加资源：[/usr/lib/hive/lib/hive-serdes-1.0 -SN ..

发布时间：2018-05-31 20:13:13 hadoop hive cloudera 分布式计算/Hadoop

这决定了地图任务的数量并减少了蜂巢中的任务？

我使用配置单元来运行查询“select * from T1，T2 where T1.a = T2.b”，并且模式是T1（int，b int），T2（int，b int），它运行，6个地图任务和一个减少任务生成，我想问，这决定了地图任务的数量和减少任务？数据量是多少？解决方案 hive> select * from emp; 将没有地图，减少将开始。意味着我们只是在倾销这些数据。如 ..

发布时间：2018-05-31 20:12:58 hadoop hive 分布式计算/Hadoop

Hive MapReduce作业分割文件

我创建了一个读取自定义文件输入格式的配置单元外部表。当文件很小时，这工作得很好。但是，当文件很大时，作业会分裂文件，导致作业失败。我在IsSplittable方法的自定义输入格式类中返回false。我也尝试将mapreduce.input.fileinputformat.split.minsize和mapred.min.split.size设置为较大的值。我创建了一个Custom Inpu ..

发布时间：2018-05-31 20:12:49 hadoop hive 分布式计算/Hadoop

Presto unnest json

回答这个问题：如何交叉加入unnest一个json数组presto 我尝试运行提供的示例，但是我得到并且出错，同时这样做 SQL命令：从中选择xn unnest（cast （json_extract（'{“payload'：[{”type“：”b“，”value“：”9“}， {”type“：”a“，”value“：”8“}] }'，'$。payload'）as a ..

发布时间：2018-05-31 20:12:16 json hadoop hive prestodb presto 分布式计算/Hadoop

将正常列转换为配置单元中的分区列

我有一个3列的表。现在我需要修改其中一列作为分区列。有没有可能？如果不是，我们如何将分区添加到现有表中。我使用了下面的语法： create table t1（eno int，ename string）以'\ t'结尾的行格式分隔字段; 将数据本地'/....path/'加载到表t1中; alter table t1添加分区（p1 ='india'）; .. 任何人都知道如何将 ..

发布时间：2018-05-31 20:11:57 hadoop hive partitioning hdfs hiveql 分布式计算/Hadoop

Hadoop Hive UDF与外部库

我正在尝试编写一个用于解析用户代理的Hadoop Hive的UDF。下面的代码在我的本地机器上工作正常，但在Hadoop上，我得到： org.apache.hadoop.hive.ql.metadata .HiveException：无法执行方法public java.lang.String MyUDF .evaluate（java.lang.String）throws org.apache ..

发布时间：2018-05-31 20:11:52 java hadoop hive user-agent udf Java开发

查询avro-backed hive表时出错：java.lang.IllegalArgumentException

我试图在从BigQuery中的原始Google Analytics数据导出的avro文件中创建天蓝色HDInsight上的配置单元表。它似乎有效。我可以创建表格，并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时，即使我只选择两个非嵌套列，我也会得到一个错误：“java.lang.IllegalArgumentException”。我创建了表格： DROP TAB ..

发布时间：2018-05-31 20:11:27 hadoop hive google-bigquery hadoop2 avro 分布式计算/Hadoop

如何使用Hive / Pig / MapReduce来展开递归层次结构

我有以表格格式存储的不平衡树数据，如：父，子 a，b b，c c，d c，f f，g 树的深度是未知的。以扁平化该层次结构，其中每行包含从一个行中的叶节点到根节点的整个路径，如下所示：叶节点，根节点，中间节点 d，a，d：c：b f，a，e：b 使用配置单元，猪或mapreduce解决上述问题的任何建议 ..

发布时间：2018-05-31 20:11:21 hadoop mapreduce hive apache-pig 分布式计算/Hadoop

如何获取Hive数据库中的所有表定义？

我正在寻找Hive中的所有表格定义。我知道，对于单表定义，我可以使用类似于 - 描述> 描述扩展> 但是，我找不到获取所有表定义的方法。在megastore中是否有任何类似于MySQL中的Information_Schema的表或者是否有命令来获取所有表定义？解决方案您可以执行此操作通过编写一个简单的ba ..

发布时间：2018-05-31 20:11:09 hadoop hive bigdata 分布式计算/Hadoop

JDBC到配置单元连接在无效操作上失败isValid（）

我遵循这个文档，试图建立一个jdbc连接到蜂巢。但日食显示这个错误。似乎没有弄清楚它到底意味着什么，并且与适当的密码和用户名的连接工作在直线中，所以它不是认证的问题。下面是我面临的错误： > 15/11/27 13:15:41信息jdbc.Utils：提供的权限：localhost：10000 > 15/11/27 13:15:41信息jdbc.Utils：解决权限：localhos ..

发布时间：2018-05-31 20:10:04 java eclipse hadoop jdbc hive Java开发

配置表查询配置对象时出错

我将S3中的日志文件加载到EMR上运行的EMR中，但是在查看数据时我收到了所有NULL ... 我创建了表： pre $ 创建外部表coglogs（ HostID字符串， ProcessID字符串，时间字符串， TimeZoneOffset字符串， SessionID字符串， RequestID字符串， SubRequestID字符串， StepID字符串，线程字 ..

发布时间：2018-05-31 20:09:29 regex hadoop amazon-web-services hive 分布式计算/Hadoop

运行配置单元查询时出现错误的FS：文件

在配置单元上运行一个简单的选择查询时出现这个奇怪的错误 $ p $ java.lang.IllegalArgumentException：错误的FS ：file：//usr/lib/hive/lib/CustomUDFint.jar，expected：file：/// at org.apache.hadoop.fs.FileSystem.checkPath（FileSystem.java: ..

发布时间：2018-05-31 20:09:13 hadoop hive 分布式计算/Hadoop

hive相关内容