amazon-athena相关内容

当 s3 数据存储同时具有 json 和 .gz 压缩文件时,如何通过 Glue 爬虫创建 AWS Athena 表?

我的预期解决方案中有两个问题: 1.我的 S3 存储结构如下: mainfolder/date=2019-01-01/hour=14/abcd.json主文件夹/日期=2019-01-01/小时=13/abcd2.json.gz...主文件夹/日期=2019-01-15/小时=13/abcd74.json.gz 所有 json 文件都具有相同的架构,我想制作一个指向 mainfolder ..
发布时间:2021-11-27 08:53:46 其他开发

Athena/Presto - UNNEST MAP 到列

假设我有一张这样的桌子, 表:qa_list id |question_id |问题 |回答 |---------+--------------+------------+------------——1 |100 |问题1 |回答 |2 |101 |问题2 |回答 |3 |102 |问题3 |回答 |4 |...... |... 以及给出以下结果的查询(因为我找不到转置表的直接方法), ..
发布时间:2021-11-27 08:53:25 其他开发

AWS 粘合作业将字符串映射到日期和时间格式,同时从 csv 转换为镶木地板

在从 csv 转换为 parquet 时,使用 AWS 胶水 ETL 作业跟随 csv 中的映射字段读取为字符串到日期和时间类型.这是实际的 csv 文件 映射和转换后,日期字段为空,时间与今天的日期连接 如何以正确的日期和时间格式进行转换? 解决方案 它使用 presto 数据类型,因此数据应该采用正确的格式 DATE 日历日期(年、月、日). 示例:日期'200 ..
发布时间:2021-11-27 08:53:15 其他开发

在 AWS Athena 中提取数组中的 json

我已将日志从 kubernetes 发送到 S3 存储桶,并想使用 Athena 进行查询 日志看起来像这样 [{ "date":1589895855.077230,"日志":"192.168.85.35 - - [19/May/2020:13:44:15 +0000] \"GET/healthz HTTP/1.1\" 200 3284 \"-\" \"ELB-HealthChecker/ ..
发布时间:2021-11-27 08:53:04 其他开发

AWS Athena (Presto) 如何将地图转置为列

AWS Athena 查询问题; 我的行中有一个嵌套映射,我想将其中的键转置为列.我可以像 items['label_a'] 一样明确地命名列,但在这种情况下,键实际上是动态的... 从这些行: {id=1, items={label_a=foo, label_b=foo}}{id=2, items={label_a=bar, label_c=bar}}{id=3, items={l ..
发布时间:2021-11-27 08:52:54 其他开发

在 hive 中查询多行 JSON 文件

我了解大多数 JSON SerDe 格式都希望将 .json 文件存储为每行一条记录. 我有一个带有多行缩进 .json 文件的 S3 存储桶(不控制源),我想使用 Amazon Athena 查询(尽管我认为这也适用一般到 Hive). 是否有可以解析多行缩进 .json 文件的 SerDe 格式? 如果没有可以执行此操作的 SerDe 格式: 是否有处理此类文件的最佳实践? ..
发布时间:2021-11-27 08:52:47 其他开发

如何确保 Athena 结果 S3 对象具有bucket-owner-full-control

我们(账户 A)想使用编程方式在不同的 aws 账户(账户 B)中触发 athena 查询(startQueryExecution),我们使用代入角色来实现它.athena 查询完成后,我们希望结果应该写入我们的 aws 帐户 s3 存储桶(帐户 A).我们设法通过设置双方 IAM 策略来允许 B 写入 A 的 S3 存储桶. 然而,账户 A 中的 S3 对象似乎仍归账户 B 所有,账户 A ..

火花雅典娜连接器

我需要在 spark 中使用 Athena 但 spark 在使用 JDBC 驱动程序时使用了 PreparedStatement 并且它给了我一个异常“com.amazonaws.athena.jdbc.NotImplementedException:方法 Connection.prepareStatement 尚未实现" 请告诉我如何在 spark 中连接 Athena 解决方案 ..
发布时间:2021-11-27 08:52:04 其他开发

Presto SQL:使用查询结果出现的时区字符串更改时区不起作用

我通过 Mode Analytics Platform 连接到 AWS Athena 并使用其查询引擎(基于 Presto 0.172)查询表.这个表 public.zones 将时区信息存储在我感兴趣的一些区域的名为 time_zone 的列中,存储为 varchar. 例如,如果我输入: SELECT time_zone从公共区域限制 4; 我得到(如预期): time_zone--- ..
发布时间:2021-11-27 08:51:54 其他开发

AWS Glue 爬网程序需要从许多具有相同架构的文件中创建一个表

我们在 S3 中有大量文件夹和文件,都在一个特定文件夹下,我们想抓取所有 CSV 文件,然后从 Athena 的 one 表中查询它们.CSV 文件都具有相同的架构.问题是爬虫为每个文件生成一个表,而不是一个表.爬虫配置有一个复选框选项“为每个 S3 路径创建一个模式",但这似乎没有任何作用. 我需要的可能吗?谢谢. 解决方案 Glue crawlers 声称可以解决很多问题,但实际 ..
发布时间:2021-11-27 08:51:46 其他开发

在 SQL (Athena) 中取消嵌套:如何将结构数组转换为从结构中提取的值数组?

我正在从贝叶斯统计模型中获取样本,使用 Avro 将它们序列化,将它们上传到 S3,然后使用 Athena 查询它们. 我需要帮助编写一个查询,在表中取消嵌套数组. CREATE TABLE 查询如下所示: 创建外部表`model_posterior`(`job_id` bigint,`model_id` bigint,`parents` 数组,`posterior_samples` ..
发布时间:2021-11-27 08:51:37 其他开发

从嵌套的 json 源创建 Athena 表

如何从嵌套的 json 文件创建 Athena 表?这是我的示例 json 文件.我只需要选定的键值对,例如屋顶条件和车库摊位. { "reportId":"7bc7fa76-bf53-4c21-85d6-118f6a8f4244","reportOrderedTS":"1529996028730","createdTS":"1530304910154",“报告":“{'summaryEleme ..
发布时间:2021-11-27 08:51:28 其他开发

AWS Athena 上的偏移量

我想使用 LIMIT 和 OFFSET 子句在 AWS Athena 上运行查询.我认为前者是支持的,而 后者不是.有没有办法使用其他方法模拟此功能? 解决方案 使用 OFFSET 进行分页是非常低效的,特别是对于像 Presto 这样的分析型数据库,它经常需要执行全表或分区扫描.此外,查询之间的结果不一定一致,因此在页面之间导航时可能会出现重复或缺失的结果. 在像 MySQL 或 ..
发布时间:2021-11-27 08:51:08 其他开发

AWS Athena (Presto) 偏移支持

我想知道 AWS Athena 中是否支持 OFFSET.对于 mysql,以下查询正在运行,但在 athena 中,它给了我错误.任何示例都会有所帮助. select * from employee where empSal >3000 LIMIT 300 OFFSET 20 解决方案 Athena 基本上是由 Presto 管理的.由于 Presto 311 你可以使用 OFFS ..
发布时间:2021-11-27 08:50:58 其他开发