hive 第11页 - IT屋-程序员软件开发技术分享社区

将 csv 数据加载到 Hive 表中时出错

我在 hadoop 中有一个 csv 文件，我有一个 Hive 表，现在我想将该 csv 文件加载到这个 Hive 表中我已经使用 load LOAD DATA local 'path/to/csv/file' overwrite INTO TABLE tablename; 最终出现此错误: Error in .verify.JDBC.result(r, "Unable to re ..

发布时间：2021-12-28 23:43:28 r hive rjdbc 其他开发

我在直接从 Spark shell 读取 ORC 文件时遇到问题.注意:运行Hadoop 1.2和Spark 1.2，使用pyspark shell，可以使用spark-shell(运行scala). 我使用过这个资源 http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/Apache_Spark_Quickstart_v224/co ..

发布时间：2021-12-28 23:43:20 scala hadoop apache-spark hive pyspark 其他开发

Hive 使用来自嵌套子目录的输入创建表

我在 HDFS 中的文件路径中有 Avro 格式的数据，例如:/data/logs/[foldername]/[filename].avro.我想在所有这些日志文件上创建一个 Hive 表，即 /data/logs/*/* 形式的所有文件.(它们都基于相同的 Avro 架构.) 我正在使用标志 mapred.input.dir.recursive=true 运行以下查询: CREATE E ..

发布时间：2021-12-28 23:43:11 hadoop hive avro create-table hive-configuration 其他开发

hive 中“加载数据 inpath"和“location"的区别?

在我的公司，我看到这两个命令经常使用，我想知道它们之间的区别，因为它们的功能在我看来是一样的: 1 创建表(名称字符串，数字双)；将数据 inpath '/directory-path/file.csv' 加载到 ; 2 创建表(名称字符串，数字双)；location '/directory-path/file.csv'; 他们都将数据从 HDFS 上的目录复制到 ..

发布时间：2021-12-28 23:43:04 sql hadoop hive hdfs hiveql 其他开发

org.apache.hadoop.hbase.PleaseHoldException: Master 正在初始化

我正在尝试设置 Hbase 的多节点集群.当我在奴隶上做 jps 时，我得到 5780 日元5558 HQuorumPeer5684 HRegionServer1963 数据节点2093 任务追踪器同样在主人身上我得到 4254 SecondaryNameNode15226 日元14982 HMaster3907 名称节点14921 HQuorumPeer4340 工作追踪器一切正常. ..

发布时间：2021-12-28 23:42:54 hadoop hbase hive 其他开发

如何使用列类型时间戳创建外部 Hive 表

我想从一个包含 HDFS 纪元的文本文件创建一个外部 Hive 表.假设文件位于 /user/me/test.txt.文件内容如下: 13541839211354183922 我安装了 Hive 0.8.1 并且应该能够使用类型时间戳，所以我创建了表: hive>创建外部表 test1(纪元时间戳)LOCATION '/用户/我'; 然后我查询了表: SELECT * FROM test ..

发布时间：2021-12-28 23:42:44 timestamp hive hiveql 其他开发

Hive Data 根据时间戳选择最新值

我有一个包含以下列的表格. C1,C2,Process TimeStamp,InsertDateTimeStampp1,v1,2014-01-30 12:15:23,2013-10-01 05:34:23p1,v2,2014-01-31 05:11:34,2013-12-01 06:12:31p1,v3,2014-01-31 07:16:05,2012-09-01 07:45:20p2,v4,2 ..

发布时间：2021-12-28 23:42:32 hive hiveql 其他开发

BigQuery 中是否有像“hive Metastore"这样的元数据存储?

我是 BigQuery 的新手.我只想知道，BigQuery 中是否有类似 hive Metastore(所有表、列及其描述的元数据)之类的东西? 解决方案 BigQuery 提供了一些特殊的表格，其内容代表元数据，例如数据集中的表格和视图列表.“元表"是只读的.要访问有关数据集中表和视图的元数据，请在查询的 SELECT 语句中使用 __TABLES_SUMMARY__ 元表.您可以使用 ..

发布时间：2021-12-28 23:42:26 hive google-bigquery hcatalog metastore 其他开发

如何在 Hive 中获取数组中的前 n 个元素

我在Hive中使用split函数创建了一个数组，如何从数组中获取前n个元素，并且想遍历子数组代码示例从表中选择 col1其中 split(col2, ',')[0:5] '[0:5]'看起来像python风格，但在这里行不通. 解决方案这是一个棘手的问题. 首先从这里获取砖房罐子然后将其添加到 Hive 中:add jar/path/to/jars/brickhous ..

发布时间：2021-12-28 23:42:15 hive 其他开发

Hive 连接优化

我有两组数据都存储在 S3 存储桶中，我需要在 Hive 中处理这些数据并将输出存储回 S3.每个数据集的样本行如下: DataSet 1: {"requestId":"TADS6152JHGJH5435", "customerId":"ASJHAGSJH","sessionId":"172356126"}数据集2:{"requestId":"TADS6152JHGJH5435","userAg ..

发布时间：2021-12-28 23:42:09 hadoop join hive hiveql 其他开发

使用参数在 Hive 中创建视图

我有一个表格，其中包含属于不同日期的行.我想创建一个视图，它应该根据日期为我提供数据创建查看新用户作为选择 DISTINCT T1.uuidFROM user_visit T1WHERE T1.firstSeen="20140522"; 我不想修复 WHERE T1.firstSeen="20140522";它可以是任何日期，如 20140525 等.有什么办法可以创建一个以日期为参数的视图 ..

发布时间：2021-12-28 23:41:59 hadoop hive hiveql 其他开发

在 SQL 中将数据从宽格式转换为长格式

我有一些格式的数据: VAR1 VAR2 Score1 Score2 Score3乙 1 2 3 我需要把它转换成格式 VAR1 VAR2 VarName 值A B 分数 1 1A B 分数 2 2A B 分数 3 3 如何在 SQL 中执行此操作? 解决方案如果你的分数列是固定的并且你不需要聚合，你可以使用多个 SELECT 和 UNION ALL 语句以生成您请求的数据形状. ..

发布时间：2021-12-28 23:41:53 sql hive 其他开发

如何编译 Hive UDF

我正在尝试编译此 UDF: package com.dataminelab.hive.udf;导入 org.apache.hadoop.hive.ql.exec.UDF；导入 org.apache.hadoop.io.Text；导入 java.security.*;/*** 计算字符串的md5*/公共最终类 Md5 扩展了 UDF {公共文本评估(最终文本){如果(s == null){返回空； ..

发布时间：2021-12-28 23:41:43 java classpath user-defined-functions hive Java开发

如何获取 Hive 编译器生成的 MapReduce Jobs 源代码?

我想知道 SQL Hive 的编译器生成的代码是什么(即如果我执行一个sql语句我想看看SQL hive的编译器生成的MapReduce作业的代码. 我怎样才能得到它? 解决方案对于 Hive，它将物理计划序列化为 xml 文件(http://www.slideshare.net/nzhang/hive-anatomy).所以，我认为用户无法获得 hadoop 的真正源代码.要获取 ..

发布时间：2021-12-28 23:41:35 hadoop hive 其他开发

Hive 数据存储在哪里?

我对 hive 在哪里存储数据感到有些困惑. 它是将数据存储在 HDFS 还是 RDBMS 中?Hive Meta store 是否使用 RDBMS 来存储 hive 表的元数据?? 提前致谢！！解决方案 Hive 数据存储在之一中Hadoop 兼容文件系统:S3、HDFS 或其他兼容文件系统. Hive 元数据像 MySQL 一样存储在 RDBMS 中，参见支持的 ..

发布时间：2021-12-28 23:41:28 hadoop hive hdfs hive-metastore 其他开发

在hadoop中合并小文件

我在 HDFS 中有一个目录(最终目录)，其中每分钟加载一些文件(例如:10 mb).一段时间后，我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断地将文件推送到最终目录.这是一个持续的过程. 所以我第一次需要将前 10 个文件组合成一个大文件(例如:large.txt)并将文件保存到 Finaldir. 现在我的问题是我将如何获得不包括前 10 个文件的接下来的 1 ..

发布时间：2021-12-28 23:41:22 hadoop mapreduce hive hdfs hadoop2 其他开发

Hive 解释计划理解

有没有什么合适的资源可以让我们完全理解hive生成的解释计划?我曾尝试在 wiki 中搜索它，但找不到完整的指南来理解它.这是 wiki，它简要解释了解释计划的工作原理.但我需要有关如何推断解释计划的更多信息.https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain 解决方案我会尽量解释我所知道的. ..

发布时间：2021-12-28 23:41:15 hadoop hive hiveql sql-execution-plan explain 其他开发

Hive QL - 每个项目的行数限制

如果我在 where 子句中列出了多个项目，如何将列表中每个项目的结果限制为 N? 例如: select a_id,b,c, count(*), as sumrequests来自表名在哪里a_id in (1,2,3)按 a_id,b,c 分组限制 10000 解决方案听起来您的问题是要获得每个 a_id 的前 N 个.您可以使用 Hive 11 中引入的窗口函数来完成此操作.例 ..

发布时间：2021-12-28 23:41:07 hadoop hql hive hiveql 其他开发

数组转换 Java 8 与 Java 9

有没有人知道为什么这段代码适用于 java 8 而不适用于 java 9 String[] strings = (String[]) Arrays.asList("foo", "bar").toArray();对于(字符串字符串:字符串){System.out.println(string);} 我知道我们可以在执行 toArray 而不是强制转换时指定类型.但是我在调试我们的一个依赖项 ..

发布时间：2021-12-28 23:41:01 java arrays collections hive java-9 Java开发

hive 表中 count(*) 结果错误

我在 HIVE 中创建了一个表如果不存在则创建表 daily_firstseen_analysis (第一次看到 STRING，类别字符串，圈STRING，指定字符串，语言字符串，osType 字符串，算INT)PARTITIONED by (day STRING)行格式分隔以 '\t' 结尾的字段作为兽人存储； count(*) 没有给我正确的结果 hive>从daily_firstse ..

发布时间：2021-12-28 23:40:51 hadoop hive hiveql 其他开发

hive相关内容