amazon-athena 第2页 - IT屋-程序员软件开发技术分享社区

在 Amazon Athena (Presto) 中投射无法正常工作?

我有一个医生执照注册数据集，其中包括每位医生的 total_submitted_charge_amount 以及医疗保险和医疗保险的权利数量.医疗补助.我使用了下面建议的答案中的查询: 带数据集市 AS(选择 npi，provider_last_name,provider_first_name，provider_mid_initial,provider_address_1,provider_a ..

发布时间：2021-11-27 08:53:55 amazon-web-services amazon-s3 presto amazon-athena 其他开发

当 s3 数据存储同时具有 json 和 .gz 压缩文件时，如何通过 Glue 爬虫创建 AWS Athena 表?

我的预期解决方案中有两个问题: 1.我的 S3 存储结构如下: mainfolder/date=2019-01-01/hour=14/abcd.json主文件夹/日期=2019-01-01/小时=13/abcd2.json.gz...主文件夹/日期=2019-01-15/小时=13/abcd74.json.gz 所有 json 文件都具有相同的架构，我想制作一个指向 mainfolder ..

发布时间：2021-11-27 08:53:46 amazon-web-services amazon-s3 amazon-athena aws-glue 其他开发

如何将实际上是带时区的日期的字符串转换为 Presto 中的时间戳?

示例:2017-12-24 23:59:59.000 PST 这不起作用 select date_parse('2017-12-24 23:59:59.000 PST','%Y-%m-%d %T.%f %x') 当然我可以截断 TZ 来解决 select date_parse(substr('2017-12-24 23:59:59.000 PST',1,23),'%Y-%m-%d %T ..

发布时间：2021-11-27 08:53:36 hive amazon-athena presto 其他开发

Athena/Presto - UNNEST MAP 到列

假设我有一张这样的桌子，表:qa_list id |question_id |问题 |回答 |---------+--------------+------------+------------——1 |100 |问题1 |回答 |2 |101 |问题2 |回答 |3 |102 |问题3 |回答 |4 |...... |... 以及给出以下结果的查询(因为我找不到转置表的直接方法)， ..

发布时间：2021-11-27 08:53:25 presto amazon-athena 其他开发

AWS 粘合作业将字符串映射到日期和时间格式，同时从 csv 转换为镶木地板

在从 csv 转换为 parquet 时，使用 AWS 胶水 ETL 作业跟随 csv 中的映射字段读取为字符串到日期和时间类型.这是实际的 csv 文件映射和转换后，日期字段为空，时间与今天的日期连接如何以正确的日期和时间格式进行转换? 解决方案它使用 presto 数据类型，因此数据应该采用正确的格式 DATE 日历日期(年、月、日). 示例:日期'200 ..

发布时间：2021-11-27 08:53:15 pyspark parquet aws-glue amazon-athena 其他开发

在 AWS Athena 中提取数组中的 json

我已将日志从 kubernetes 发送到 S3 存储桶，并想使用 Athena 进行查询日志看起来像这样 [{ "date":1589895855.077230,"日志":"192.168.85.35 - - [19/May/2020:13:44:15 +0000] \"GET/healthz HTTP/1.1\" 200 3284 \"-\" \"ELB-HealthChecker/ ..

发布时间：2021-11-27 08:53:04 presto amazon-athena 其他开发

AWS Athena (Presto) 如何将地图转置为列

AWS Athena 查询问题；我的行中有一个嵌套映射，我想将其中的键转置为列.我可以像 items['label_a'] 一样明确地命名列，但在这种情况下，键实际上是动态的... 从这些行: {id=1, items={label_a=foo, label_b=foo}}{id=2, items={label_a=bar, label_c=bar}}{id=3, items={l ..

发布时间：2021-11-27 08:52:54 presto amazon-athena 其他开发

在 hive 中查询多行 JSON 文件

我了解大多数 JSON SerDe 格式都希望将 .json 文件存储为每行一条记录. 我有一个带有多行缩进 .json 文件的 S3 存储桶(不控制源)，我想使用 Amazon Athena 查询(尽管我认为这也适用一般到 Hive). 是否有可以解析多行缩进 .json 文件的 SerDe 格式? 如果没有可以执行此操作的 SerDe 格式: 是否有处理此类文件的最佳实践? ..

发布时间：2021-11-27 08:52:47 json hive amazon-athena 其他开发

如何确保 Athena 结果 S3 对象具有bucket-owner-full-control

我们(账户 A)想使用编程方式在不同的 aws 账户(账户 B)中触发 athena 查询(startQueryExecution)，我们使用代入角色来实现它.athena 查询完成后，我们希望结果应该写入我们的 aws 帐户 s3 存储桶(帐户 A).我们设法通过设置双方 IAM 策略来允许 B 写入 A 的 S3 存储桶. 然而，账户 A 中的 S3 对象似乎仍归账户 B 所有，账户 A ..

发布时间：2021-11-27 08:52:40 amazon-web-services amazon-s3 permissions amazon-athena 其他开发

AWS ATHENA:用户定义的变量

我需要按组创建一个行号.在 mysql 中，我为此使用“用户定义的变量".但是在 Athena 中给了我一个错误:在输入 '@' 处没有可行的替代方案这是我的查询: SELECT @row_num := IF(@prev_value=concat_ws('',t.user_id,t.campaign_id,t.placement_id, t.creative_id),@row_num+1 ..

发布时间：2021-11-27 08:52:33 amazon-web-services variables session-variables amazon-athena 其他开发

AWS Glue Crawler 创建分区和文件表

我有一个非常基本的 s3 设置，我想使用 Athena 进行查询.数据全部存储在一个桶中，组织成年/月/日/小时文件夹. |--数据||--2018|||--01||||--01|||||--01||||||--file1.json||||||--file2.json|||||--02||||||--file3.json||||||--file4.json... 然后我设置了一个 AWS Gl ..

发布时间：2021-11-27 08:52:25 amazon-web-services amazon-s3 amazon-athena aws-glue 其他开发

使用 Spark 将文件夹结构转换为 S3 上的分区

我在 S3 上有很多数据位于文件夹而不是分区中.结构如下: ## s3://bucket/countryname/year/weeknumber/a.csvs3://Countries/Canada/2019/20/part-1.csvs3://Countries/Canada/2019/20/part-2.csvs3://Countries/Canada/2019/20/part-3.csvs ..

发布时间：2021-11-27 08:52:14 bash apache-spark amazon-s3 amazon-athena 其他开发

火花雅典娜连接器

我需要在 spark 中使用 Athena 但 spark 在使用 JDBC 驱动程序时使用了 PreparedStatement 并且它给了我一个异常“com.amazonaws.athena.jdbc.NotImplementedException:方法 Connection.prepareStatement 尚未实现" 请告诉我如何在 spark 中连接 Athena 解决方案 ..

发布时间：2021-11-27 08:52:04 pyspark amazon-athena 其他开发

Presto SQL:使用查询结果出现的时区字符串更改时区不起作用

我通过 Mode Analytics Platform 连接到 AWS Athena 并使用其查询引擎(基于 Presto 0.172)查询表.这个表 public.zones 将时区信息存储在我感兴趣的一些区域的名为 time_zone 的列中，存储为 varchar. 例如，如果我输入: SELECT time_zone从公共区域限制 4；我得到(如预期): time_zone--- ..

发布时间：2021-11-27 08:51:54 sql postgresql timezone amazon-athena presto 其他开发

AWS Glue 爬网程序需要从许多具有相同架构的文件中创建一个表

我们在 S3 中有大量文件夹和文件，都在一个特定文件夹下，我们想抓取所有 CSV 文件，然后从 Athena 的 one 表中查询它们.CSV 文件都具有相同的架构.问题是爬虫为每个文件生成一个表，而不是一个表.爬虫配置有一个复选框选项“为每个 S3 路径创建一个模式"，但这似乎没有任何作用. 我需要的可能吗?谢谢. 解决方案 Glue crawlers 声称可以解决很多问题，但实际 ..

发布时间：2021-11-27 08:51:46 amazon-athena aws-glue 其他开发

在 SQL (Athena) 中取消嵌套:如何将结构数组转换为从结构中提取的值数组?

我正在从贝叶斯统计模型中获取样本，使用 Avro 将它们序列化，将它们上传到 S3，然后使用 Athena 查询它们. 我需要帮助编写一个查询，在表中取消嵌套数组. CREATE TABLE 查询如下所示: 创建外部表`model_posterior`(`job_id` bigint，`model_id` bigint，`parents` 数组,`posterior_samples` ..

发布时间：2021-11-27 08:51:37 sql row avro amazon-athena unnest 其他开发

从嵌套的 json 源创建 Athena 表

如何从嵌套的 json 文件创建 Athena 表?这是我的示例 json 文件.我只需要选定的键值对，例如屋顶条件和车库摊位. { "reportId":"7bc7fa76-bf53-4c21-85d6-118f6a8f4244","reportOrderedTS":"1529996028730","createdTS":"1530304910154",“报告":“{'summaryEleme ..

发布时间：2021-11-27 08:51:28 amazon-athena 其他开发

无法在 Presto Athena 中将 varchar 转换为数组

我的数据是 varchar 格式.我想拆分这个数组的两个元素，以便我可以从 json 中提取一个键值. 数据格式:[{"skuId": "5bc87ae20d298a283c297ca1",“单价":0，"id": "5bc87ae20d298a283c297ca1",“数量":“1"},{"skuId": "182784738484wefhdchs4848",“单价":50，"id": "5b ..

发布时间：2021-11-27 08:51:17 arrays json presto amazon-athena trino 其他开发

AWS Athena 上的偏移量

我想使用 LIMIT 和 OFFSET 子句在 AWS Athena 上运行查询.我认为前者是支持的，而后者不是.有没有办法使用其他方法模拟此功能? 解决方案使用 OFFSET 进行分页是非常低效的，特别是对于像 Presto 这样的分析型数据库，它经常需要执行全表或分区扫描.此外，查询之间的结果不一定一致，因此在页面之间导航时可能会出现重复或缺失的结果. 在像 MySQL 或 ..

发布时间：2021-11-27 08:51:08 amazon-web-services presto amazon-athena 其他开发

AWS Athena (Presto) 偏移支持

我想知道 AWS Athena 中是否支持 OFFSET.对于 mysql，以下查询正在运行，但在 athena 中，它给了我错误.任何示例都会有所帮助. select * from employee where empSal >3000 LIMIT 300 OFFSET 20 解决方案 Athena 基本上是由 Presto 管理的.由于 Presto 311 你可以使用 OFFS ..

发布时间：2021-11-27 08:50:58 sql amazon-web-services presto amazon-athena 其他开发

amazon-athena相关内容