hive相关内容

Hive tez 执行错误

我正在运行 hive 查询,并且在设置 hive.execution.engine=tez 时出现以下错误,而查询在 engine=MR 下工作. FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1 我的查询是内连接,数据量很大. 另外一件事是我以前遇到过这个问题.但是 tez 后来起作用,所以我认为这是关于 h ..
发布时间:2021-12-28 23:46:31 其他开发

使用 HiveQL 分解结构数组

如果不存在则创建表 Table2(USER_ID BIGINT,PURCHASED_ITEM ARRAY>) 行格式以“-"结尾的分隔字段以“,"结尾的集合项以“:"结尾的映射键以 '\n' 结尾的行存储为文本文件LOCATION '/user/rj/output2'; 以下是表2中的数据 1345653-110909316904:1341894546,221065796761:1341887 ..
发布时间:2021-12-28 23:46:22 其他开发

HiveQL 和 rank()

我无法理解 HiveQL rank().我在 WWW 上找到了几个 rank UDF 的实现,例如 Edward 的好例子.我可以加载和访问这些功能,但我无法让它们做我想做的事.下面是一个详细的例子: 将 UDF 加载到 CLI 过程中: $ javac -classpath/home/hadoop/hadoop/hadoop-core-1.0.4.jar:/home/hadoop/hiv ..
发布时间:2021-12-28 23:46:00 其他开发

如何将 xml 文件加载到 Hive 中

我正在处理 Hive 表,但遇到以下问题.我的 HDFS 中有超过 10 亿个 xml 文件.我想要做的是,每个 xml 文件都有 4 个不同的部分.现在我想为每个 xml 文件拆分和加载每个表中的每个部分 示例: 1233222 //有很多 xml 标签//有很多 xml 标签//有很多 xml 标签//有很多 xml 标签 ..
发布时间:2021-12-28 23:45:43 其他开发

Hive SELECT 语句来创建一个 STRUCTS 数组

我无法选择 Hive 中的结构数组. 我的源表如下所示: +-------------+--+|领域|+-------------+--+|身份证 ||字段ID ||字段标签 ||字段类型 ||answer_id ||单位名称 |+-------------+--+ 这是调查数据,其中id是调查id,中间的四个字段是响应数据,unitname是调查所属的业务单位. 我需要为每个调查 ..
发布时间:2021-12-28 23:45:36 其他开发

Java - MySQL 到 Hive 导入,其中 MySQL 在 Windows 上运行,Hive 在 Cent OS(Horton Sandbox)上运行

在任何答案和评论之前.我尝试了在 Stackoverflow 中找到的几个选项,但以失败告终.以下是这些链接 - 如何在 Java 中执行 Sqoop? 如何在 Java 程序中使用 Sqoop? 如何将表从 MySQL 导入 Hive 使用Java? 如何将 SQL 数据加载到 Hortonworks? 我通过命令行在 Horton Sandbox 中尝试并成功. sqoop ..
发布时间:2021-12-28 23:45:28 Java开发

HIVE 枢轴和总和

我有一张表格,我想弄清楚如何根据第二列中的值进行透视和求和. 示例输入: |拥有|宠物|数量||---|---|---||鲍勃|狗|2 ||鲍勃|狗|3 ||鲍勃|狗|1 ||鲍勃|猫|1 ||乔恩|狗|1 ||乔恩|猫|1 ||乔恩|猫|1 ||乔恩|牛|4 ||山姆|狗|3 ||山姆|牛|1 ||山姆|牛|2 | 示例输出: |own|dog|cat|cow||---|---|-- ..
发布时间:2021-12-28 23:45:17 其他开发

SQL 挑战/谜题:给定堆栈跟踪 - 如何在每个时间点找到顶部元素?

我在现实生活中的用例是合并嵌套范围.我画了一些草图,然后我看到了堆栈 PUSH 和 POP 操作的开始和结束范围之间的相似之处.我明白解决这个问题也会解决原来的问题. op 列实际上可以从问题中删除.当 val 为 NULL 时,它是一个 POP 操作,否则它是一个 PUSH 操作. 谜题 一个表,stack_trace,包含以下列: i - 表示时间点的整数值. op ..
发布时间:2021-12-28 23:45:07 数据库

SQL 挑战/谜题:如何合并嵌套范围?

这项挑战基于一个涉及 IP 范围的真实用例. 我提供的解决方案基于 堆栈跟踪 我之前提出的挑战.每个范围的开始都被视为一个 PUSH 操作,每个范围的结束 + 1 被视为一个 POP 操作. 挑战 我们有一个范围数据集,其中每个范围都有一个起点、终点和一个值. 创建表范围(range_start int 不为空,range_end int 不为空,range_val char(1) ..
发布时间:2021-12-28 23:44:46 数据库

在 Hive 表中使用 JSON-SerDe

我正在从下面的链接尝试 JSON-SerDehttp://code.google.com/p/hive-json-serde/wiki/入门. CREATE TABLE my_table (field1 string, field2 int,field3 字符串,field4 双精度)行格式 SERDE 'org.apache.hadoop.hive.contrib.serde2.JsonSe ..
发布时间:2021-12-28 23:44:36 其他开发

如何将mysql表转移到hive?

我有一个很大的 mysql 表,我想将它转移到一个 Hadoop/Hive 表.是否有标准命令或技术可以将简单(但很大)的表从 Mysql 传输到 Hive?该表主要存储分析数据. 解决方案 首先下载mysql-connector-java-5.0.8,把jar包放到Sqoop的lib和bin文件夹 在 Hive 中创建表定义,使用 确切的字段名称和类型,就像在 mysql 中一 ..
发布时间:2021-12-28 23:44:15 数据库

如何在运行时在 spark-shell 中添加 hive 属性

如何在运行时设置 hive 属性,例如:hive.metastore.warehouse.dir?或者至少是一种更动态的设置属性的方式,而不是将它放在像 spark_home/conf/hive-site.xml 这样的文件中 解决方案 我遇到了同样的问题,对我来说,它通过从 Spark (2.4.0) 设置 Hive 属性来解决.请通过 spark-shell、spark-submit 和 ..
发布时间:2021-12-28 23:44:07 其他开发

如何在没有 hadoop 的情况下使用 Hive

我是 NoSQL 解决方案的新手,想使用 Hive.但是安装 HDFS/Hadoop 需要大量资源和时间(可能没有经验但我没有时间这样做). 有没有办法在没有 HDFS/Hadoop 的本地机器上安装和使用 Hive? 解决方案 是的,你可以在没有 hadoop 的情况下运行 hive1.在本地系统上创建仓库2. 将默认 fs 设为 file:///比你可以在没有安装 hadoop ..
发布时间:2021-12-28 23:43:59 其他开发

Hive 1.1.0 将表分区类型从 int 更改为 string

我有一个表,它有一个 int 类型的分区,但我想将其转换为字符串.但是,我不知道该怎么做. 表描述为: Col1 时间戳Col2 字符串Col3 字符串Col4 字符串Part_col 整数#分区信息# col_name data_type 注释Part_col 整数 我创建的分区是 Part_col=0, Part_col=1, ..., Part_col=23 我想将它们更改为 ..
发布时间:2021-12-28 23:43:50 其他开发

在 Azure 数据块中创建外部表

我是 azure databricks 的新手,正在尝试创建一个指向 Azure Data Lake Storage (ADLS) Gen-2 位置的外部表. 从 databricks 笔记本中,我尝试为 ADLS 访问设置 spark 配置.我仍然无法执行创建的 DDL. 注意:对我有用的一种解决方案是将 ADLS 帐户安装到集群,然后使用外部表的 DDL 中的安装位置.但是我需要检 ..
发布时间:2021-12-28 23:43:38 其他开发