hive相关内容

将 Hive 表导出到 S3 存储桶

我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表,并从一个 CSV 文件中填充它,如下所示: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING)行格式分隔以 '\t' 结尾的字段;加载数据本地输入路径'/home/hadoop/file.csv' OVERWRITE INTO TABLE csvimp ..
发布时间:2021-11-27 10:10:37 其他开发

你如何用 JSON 数据制作一个 HIVE 表?

我想从一些 JSON 数据(嵌套)中创建一个 Hive 表并对其运行查询?这甚至可能吗? 我已经将 JSON 文件上传到 S3 并启动了一个 EMR 实例,但我不知道在 hive 控制台中输入什么才能使 JSON 文件成为 Hive 表? 有没有人有一些示例命令可以帮助我入门,我在 Google 上找不到任何有用的东西... 解决方案 您需要使用 JSON serde 以便 H ..
发布时间:2021-11-27 10:09:49 其他开发

Amazon Elastic MapReduce - 从 S3 到 DynamoDB 的大量插入非常慢

我需要将大约 1.3 亿个项目(总共 5 Gb 以上)初始上传到单个 DynamoDB 表中.在我使用 API 上传它们时遇到问题申请,我决定改用 EMR. 长话短说,即使在最强大的集群上,导入非常平均的(对于 EMR)数据量也需要很长时间,花费数百小时而进展甚微(处理测试 2Mb 数据位大约需要 20 分钟,并且没有无法在 12 小时内完成测试 700Mb 文件). 我已经联系了 A ..
发布时间:2021-11-27 10:08:14 其他开发

Amazon EC2 与 Amazon EMR

我在 Hive 中实现了一个任务.目前它在我的单节点集群上运行良好.现在我计划在 AWS 上部署它. 我对 AWS 一无所知.如果我打算部署它,我应该选择 Amazon EC2 还是 Amazon EMR? 我想提高我的任务的表现.哪一个对我来说更好更可靠?如何接近他们?我听说我们也可以像在 AWS 上一样注册我们的 VM 设置.可能吗? 请尽快给我推荐. 非常感谢. ..
发布时间:2021-11-27 10:07:17 其他开发

指定从 Hive 插入生成的文件的最小数量

我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似,但生成的文件数量各不相同,通常在 6 到 8 个之间,但有时它只会创建一个大文件.我重新运行了几次查询,以防万一文件数量碰巧受到集群中节点可用性的影响,但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大 ..
发布时间:2021-11-27 10:06:25 其他开发

在 hive 中查询多行 JSON 文件

我了解大多数 JSON SerDe 格式都希望将 .json 文件存储为每行一条记录. 我有一个带有多行缩进 .json 文件的 S3 存储桶(不控制源),我想使用 Amazon Athena 查询(尽管我认为这也适用一般到 Hive). 是否有可以解析多行缩进 .json 文件的 SerDe 格式? 如果没有可以执行此操作的 SerDe 格式: 是否有处理此类文件的最佳实践? ..
发布时间:2021-11-27 08:52:47 其他开发

带有双引号和逗号的 AWS Glue 问题

我有这个 CSV 文件: 参考,地址V7T452F4H9,“12410 W 62TH ST,AA D" 表定义中使用了以下选项 行格式SERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'具有 SERDE 属性 ('quoteChar'='\"','separatorChar'=',') 但它仍然无法识别数据中的双引号,并且双引号字段中的逗号将数 ..
发布时间:2021-11-27 08:50:07 其他开发

如何在 AWS Athena 中自动执行 MSCK REPAIR TABLE

我有一个每小时执行一次的 Spark 批处理作业.每次运行都会使用目录命名模式 DATA/YEAR=?/MONTH=?/DATE=?/datafile 在 S3 中生成和存储新数据. 将数据上传到 S3 后,我想使用 Athena 对其进行调查.另外,我想通过连接到 Athena 作为数据源,在 QuickSight 中将它们可视化. 问题是每次运行我的 Spark 批处理后,存储在 ..
发布时间:2021-11-27 08:48:29 其他开发

Hive:在主表上进行增量更新的最佳方式

所以我在 Hive 中有一个主表,它将存储我所有的数据. 我希望能够加载大约每个月的增量数据更新拥有大量数据,数十亿行.会有新数据以及更新的条目. 解决这个问题的最佳方法是什么,我知道 Hive 最近升级并支持更新/插入/删除. 我一直在想的是以某种方式找到将要更新的条目并将它们从主表中删除,然后插入新的增量更新.但是在尝试之后,插入非常快,但删除非常慢. 另一种方式是使用 ..
发布时间:2021-11-25 13:56:25 Java Web开发

SQL 拆分逗号分隔行

我有一列包含可变数量的逗号分隔值: 某事A、某事B、某事C别的东西A,别的东西B 并且我希望结果采用每个值,并创建一行: somethingA某事B某事C别的东西A别的东西B 如何在 SQL (MySQL) 中执行此操作? (我试过谷歌搜索“内爆"和“横向视图",但这些似乎没有出现相关问题.所有相关的 SO 问题都试图做更复杂的事情) 解决方案 你可以像这样用纯 SQL 做到 ..
发布时间:2021-11-20 21:25:08 MySQL

选择数组中的一系列元素spark sql

我使用 spark-shell 进行以下操作. 最近在 spark-sql 中加载了一个包含数组列的表. 这是相同的 DDL: 创建表 test_emp_arr{dept_id 字符串,dept_nm 字符串,emp_details 数组} 数据看起来像这样 +-------+-------+----------------------------------+|dept_i ..
发布时间:2021-11-18 05:05:15 其他开发

如何在 Hive 中将 int 数组的元素连接到字符串

我正在尝试将 int 数组的元素连接到 蜂巢. 函数 concat_ws 仅适用于字符串数组,所以我尝试了 cast(my_int_array as string) 但它不起作用. 有什么建议吗? 解决方案 尝试使用/bin/cat 进行转换: from mytable select transform(my_int_array) using '/bin/cat' as ( ..
发布时间:2021-11-18 04:19:54 其他开发

Hive 中 Presto UNNEST 函数的等价物是什么

Presto 有一个 UNNEST 函数来分解由数组组成的列.Hive 有类似的吗?请参阅 Presto 此处的UNNEST 功能的文档. 解决方案 使用lateral view [outer] expand.横向视图首先将 UDTF 应用于基表的每一行,然后将结果输出行连接到输入行以形成具有提供的表别名的虚拟表. 这是从 Hive 迁移 Presto 文档的示例: SELECT学 ..
发布时间:2021-11-18 03:10:07 其他开发

如何在 hive sql 中将数组转换为字符串?

我想在 hive 中将数组转换为字符串.我想在没有 [[""]] 的情况下将 collect_set 数组值转换为字符串. 选择actor, collect_set(date) as grpdate from actor_table group by actor; 这样 [["2016-07-01", "2016-07-02"]] 会变成 2016-07-01, 2016-07-02 解 ..
发布时间:2021-11-18 03:03:07 其他开发

使用 HIVE 解析 json 数组

我在一个表 (jt) 中存储了许多 json 数组,如下所示: [{"ts":1403781896,"id":14,"log":"show"},{"ts":1403781896,"id":14,"log":"start"}][{"ts":1403781911,"id":14,"log":"press"},{"ts":1403781911,"id":14,"log":"press"}] 每个数组 ..
发布时间:2021-11-18 02:59:37 其他开发

将 Linkedin JSON 响应加载到 HIVE

编辑:更改了 HQL 语句以映射到 JSON 结构.但是错误依旧 我尝试了多种方法来创建 HIVE 表并使用 JSONSerDe 检索数据.但这里是我遇到的错误: hive>从工作中选择*;好的失败,异常 java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException: java.io.EOFException:由于输入结束 ..
发布时间:2021-11-15 03:10:19 其他开发

使用 Java API 从 Hive 中获取表属性

我正在尝试使用 java 中的 Metastore 客户端从 hive Metastore 中获取表属性,例如表 db、名称、所有者和 hdfs 位置.我想我可以得到表数据库和名称,但是我不知道如何获取所有者和 hdfs 位置之类的东西.是否可以?我一直在搜索文档和互联网几个小时,但没有骰子. 解决方案 可能是这样的: org.apache.hadoop.hive.metastore.a ..
发布时间:2021-11-15 00:32:20 其他开发