hive 第10页 - IT屋-程序员软件开发技术分享社区

处理 Spark Streaming rdd 并存储到单个 HDFS 文件

我正在使用 Kafka Spark Streaming 来获取流数据. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2) 我正在使用这个 DStream 并处理 RDD val o ..

发布时间：2021-12-28 23:46:37 apache-spark hive hdfs spark-streaming 其他开发

Hive tez 执行错误

我正在运行 hive 查询，并且在设置 hive.execution.engine=tez 时出现以下错误，而查询在 engine=MR 下工作. FAILED:执行错误，从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1 我的查询是内连接，数据量很大. 另外一件事是我以前遇到过这个问题.但是 tez 后来起作用，所以我认为这是关于 h ..

发布时间：2021-12-28 23:46:31 hive apache-tez 其他开发

使用 HiveQL 分解结构数组

如果不存在则创建表 Table2(USER_ID BIGINT，PURCHASED_ITEM ARRAY>) 行格式以“-"结尾的分隔字段以“,"结尾的集合项以“:"结尾的映射键以 '\n' 结尾的行存储为文本文件LOCATION '/user/rj/output2'; 以下是表2中的数据 1345653-110909316904:1341894546,221065796761:1341887 ..

发布时间：2021-12-28 23:46:22 sql hive hiveql 其他开发

使用加载数据将 csv 文件转换为 hive 表 - 如何格式化 csv 中的日期以供 hive 表接受

我正在使用加载数据语法将 csv 文件加载到表中.该文件与 hive 接受的格式相同.但是在发出加载数据后，最后2列在选择时返回null. 1750,651,'2013-03-11','2013-03-17'1751,652,'2013-03-18','2013-03-24'1752,653,'2013-03-25','2013-03-31'1753,654,'2013-04-01','2013 ..

发布时间：2021-12-28 23:46:11 csv hive create-table hive-serde hiveddl 其他开发

HiveQL 和 rank()

我无法理解 HiveQL rank().我在 WWW 上找到了几个 rank UDF 的实现，例如 Edward 的好例子.我可以加载和访问这些功能，但我无法让它们做我想做的事.下面是一个详细的例子: 将 UDF 加载到 CLI 过程中: $ javac -classpath/home/hadoop/hadoop/hadoop-core-1.0.4.jar:/home/hadoop/hiv ..

发布时间：2021-12-28 23:46:00 hadoop hive hiveql 其他开发

Hive - 可以提取常见选项以在其他脚本中重用吗?

我有两个 Hive 脚本，如下所示: 脚本 A: SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=非严格；SET hive.exec.parallel=true;... 做一点事 ... 脚本 B: SET hive.exec.dynamic.partition=true;SET hi ..

发布时间：2021-12-28 23:45:50 sql hive hiveql hive-configuration 其他开发

如何将 xml 文件加载到 Hive 中

我正在处理 Hive 表，但遇到以下问题.我的 HDFS 中有超过 10 亿个 xml 文件.我想要做的是，每个 xml 文件都有 4 个不同的部分.现在我想为每个 xml 文件拆分和加载每个表中的每个部分示例: 1233222 //有很多 xml 标签//有很多 xml 标签//有很多 xml 标签//有很多 xml 标签 ..

发布时间：2021-12-28 23:45:43 xml hadoop hive 其他开发

Hive SELECT 语句来创建一个 STRUCTS 数组

我无法选择 Hive 中的结构数组. 我的源表如下所示: +-------------+--+|领域|+-------------+--+|身份证 ||字段ID ||字段标签 ||字段类型 ||answer_id ||单位名称 |+-------------+--+ 这是调查数据，其中id是调查id，中间的四个字段是响应数据，unitname是调查所属的业务单位. 我需要为每个调查 ..

发布时间：2021-12-28 23:45:36 arrays struct hive hiveql 其他开发

Java - MySQL 到 Hive 导入，其中 MySQL 在 Windows 上运行，Hive 在 Cent OS(Horton Sandbox)上运行

在任何答案和评论之前.我尝试了在 Stackoverflow 中找到的几个选项，但以失败告终.以下是这些链接 - 如何在 Java 中执行 Sqoop? 如何在 Java 程序中使用 Sqoop? 如何将表从 MySQL 导入 Hive 使用Java? 如何将 SQL 数据加载到 Hortonworks? 我通过命令行在 Horton Sandbox 中尝试并成功. sqoop ..

发布时间：2021-12-28 23:45:28 java mysql hive sqoop hortonworks-data-platform Java开发

HIVE 枢轴和总和

我有一张表格，我想弄清楚如何根据第二列中的值进行透视和求和. 示例输入: |拥有|宠物|数量||---|---|---||鲍勃|狗|2 ||鲍勃|狗|3 ||鲍勃|狗|1 ||鲍勃|猫|1 ||乔恩|狗|1 ||乔恩|猫|1 ||乔恩|猫|1 ||乔恩|牛|4 ||山姆|狗|3 ||山姆|牛|1 ||山姆|牛|2 | 示例输出: |own|dog|cat|cow||---|---|-- ..

发布时间：2021-12-28 23:45:17 hadoop hive sum pivot transpose 其他开发

SQL 挑战/谜题:给定堆栈跟踪 - 如何在每个时间点找到顶部元素?

我在现实生活中的用例是合并嵌套范围.我画了一些草图，然后我看到了堆栈 PUSH 和 POP 操作的开始和结束范围之间的相似之处.我明白解决这个问题也会解决原来的问题. op 列实际上可以从问题中删除.当 val 为 NULL 时，它是一个 POP 操作，否则它是一个 PUSH 操作. 谜题一个表，stack_trace，包含以下列: i - 表示时间点的整数值. op ..

发布时间：2021-12-28 23:45:07 sql sql-server oracle hive teradata 数据库

如何将时间戳转换为字符串(不更改时区)?

我有一些 unix 时间在 sparklyr 中转换为时间戳，出于某些原因，我还需要将它们转换为字符串. 不幸的是，在转换为字符串的过程中，hive 似乎转换为 EST(我的语言环境). df_new %select(t, unix_t, date_str, date_alt) %>% head(5)# 来源:懒惰查询 [??× 4]# 数据库:spark_connectiont unix ..

发布时间：2021-12-28 23:44:58 r apache-spark hive timestamp sparklyr 其他开发

SQL 挑战/谜题:如何合并嵌套范围?

这项挑战基于一个涉及 IP 范围的真实用例. 我提供的解决方案基于堆栈跟踪我之前提出的挑战.每个范围的开始都被视为一个 PUSH 操作，每个范围的结束 + 1 被视为一个 POP 操作. 挑战我们有一个范围数据集，其中每个范围都有一个起点、终点和一个值. 创建表范围(range_start int 不为空,range_end int 不为空,range_val char(1) ..

发布时间：2021-12-28 23:44:46 sql sql-server oracle hive teradata 数据库

在 Hive 表中使用 JSON-SerDe

我正在从下面的链接尝试 JSON-SerDehttp://code.google.com/p/hive-json-serde/wiki/入门. CREATE TABLE my_table (field1 string, field2 int,field3 字符串，field4 双精度)行格式 SERDE 'org.apache.hadoop.hive.contrib.serde2.JsonSe ..

发布时间：2021-12-28 23:44:36 hadoop hive 其他开发

失败，异常 java.io.IOException:org.apache.avro.AvroTypeException: Found long,期待在 hive 中的联合

需要帮助！！！我正在使用 flume 将 twitter 提要流式传输到 hdfs 并将其加载到 hive 中进行分析. 步骤如下: hdfs 中的数据: 我已经在 avsc 文件中描述了 avro schema 并将其放入 hadoop: {"type":"record","name":"文档","doc":"adoc","fields":[{"name":"id" ..

发布时间：2021-12-28 23:44:22 java hadoop hive Java开发

如何将mysql表转移到hive?

我有一个很大的 mysql 表，我想将它转移到一个 Hadoop/Hive 表.是否有标准命令或技术可以将简单(但很大)的表从 Mysql 传输到 Hive?该表主要存储分析数据. 解决方案首先下载mysql-connector-java-5.0.8，把jar包放到Sqoop的lib和bin文件夹在 Hive 中创建表定义，使用确切的字段名称和类型，就像在 mysql 中一 ..

发布时间：2021-12-28 23:44:15 mysql hadoop hive 数据库

如何在运行时在 spark-shell 中添加 hive 属性

如何在运行时设置 hive 属性，例如:hive.metastore.warehouse.dir?或者至少是一种更动态的设置属性的方式，而不是将它放在像 spark_home/conf/hive-site.xml 这样的文件中解决方案我遇到了同样的问题，对我来说，它通过从 Spark (2.4.0) 设置 Hive 属性来解决.请通过 spark-shell、spark-submit 和 ..

发布时间：2021-12-28 23:44:07 apache-spark hive 其他开发

如何在没有 hadoop 的情况下使用 Hive

我是 NoSQL 解决方案的新手，想使用 Hive.但是安装 HDFS/Hadoop 需要大量资源和时间(可能没有经验但我没有时间这样做). 有没有办法在没有 HDFS/Hadoop 的本地机器上安装和使用 Hive? 解决方案是的，你可以在没有 hadoop 的情况下运行 hive1.在本地系统上创建仓库2. 将默认 fs 设为 file:///比你可以在没有安装 hadoop ..

发布时间：2021-12-28 23:43:59 hadoop hive hdfs 其他开发

Hive 1.1.0 将表分区类型从 int 更改为 string

我有一个表，它有一个 int 类型的分区，但我想将其转换为字符串.但是，我不知道该怎么做. 表描述为: Col1 时间戳Col2 字符串Col3 字符串Col4 字符串Part_col 整数#分区信息# col_name data_type 注释Part_col 整数我创建的分区是 Part_col=0, Part_col=1, ..., Part_col=23 我想将它们更改为 ..

发布时间：2021-12-28 23:43:50 hadoop hive partitioning ddl 其他开发

在 Azure 数据块中创建外部表

我是 azure databricks 的新手，正在尝试创建一个指向 Azure Data Lake Storage (ADLS) Gen-2 位置的外部表. 从 databricks 笔记本中，我尝试为 ADLS 访问设置 spark 配置.我仍然无法执行创建的 DDL. 注意:对我有用的一种解决方案是将 ADLS 帐户安装到集群，然后使用外部表的 DDL 中的安装位置.但是我需要检 ..

发布时间：2021-12-28 23:43:38 azure hive databricks azure-databricks external-tables 其他开发

hive相关内容