amazon-athena 第3页 - IT屋-程序员软件开发技术分享社区

我可以从 Athena 中删除数据(表中的行)吗?

是否可以通过 Athena 查询删除存储在 S3 中的数据?我必须从几个表中删除一些行(它们指向 S3 中的单独存储桶). 我在 Athena 用户指南中找不到这样做的方法:https://docs.aws.amazon.com/athena/latest/ug/athena-ug.pdf 和 DELETE FROM 不受支持，但我是想知道是否有比尝试在 S3 中查找文件并删除它们更简单的方 ..

发布时间：2021-11-27 08:50:50 amazon-web-services amazon-athena 其他开发

AWS Athena 将结构数组导出到 JSON

我有一个 Athena 表，其中一些字段具有相当复杂的嵌套格式.S3 中的支持记录是 JSON.沿着这些思路(但我们有更多层次的嵌套): CREATE EXTERNAL TABLE IF NOT EXISTS test (时间戳加倍，统计数组,dets array, header:struct>>，pos结构)行格式 SERDE 'org.openx.data.jsonserde.JsonSer ..

发布时间：2021-11-27 08:50:43 json presto amazon-athena 其他开发

athena presto - 从长到宽的多列

我是 Athena 的新手，我正在尝试了解如何将多列从长格式转换为宽格式.看起来 presto 是需要的，但我只能成功地将 map_agg 应用于一个变量.我认为使用 multimap_agg 可以实现我下面的最终结果，但不能完全让它工作. 下面我将介绍我的步骤和数据.如果您有任何建议或问题，请告诉我！首先，数据是这样开始的: id |信|数量 |价值--------------- ..

发布时间：2021-11-27 08:50:33 sql pivot window-functions presto amazon-athena 其他开发

如何避免 AWS Athena CTAS 查询创建小文件?

我无法弄清楚我的 CTAS 查询出了什么问题，即使我没有提到任何分桶列，它也会在存储在分区内时将数据分解成更小的文件.有没有办法避免这些小文件并将每个分区存储为一个文件，因为小于 128 MB 的文件会导致额外的开销? CREATE TABLE sampledb.yellow_trip_data_parquet和(格式 = '镶木地板'parquet_compression = 'GZIP',e ..

发布时间：2021-11-27 08:50:24 amazon-web-services amazon-athena 其他开发

在同一 Cloudformation 堆栈中连接 Athena 和 S3

从文档中，AWS::Athena::NamedQuery，不清楚如何将 Athena 附加到同一堆栈中指定的 S3 存储桶. 如果我不得不从 example，我想你可以写一个模板，资源:我的S3Bucket:类型:AWS::S3::Bucket... 其他参数 ...AthenaNamedQuery:类型:AWS::Athena::NamedQuery特性:数据库:“db_name"名称 ..

发布时间：2021-11-27 08:50:14 amazon-web-services amazon-s3 amazon-cloudformation amazon-athena 其他开发

带有双引号和逗号的 AWS Glue 问题

我有这个 CSV 文件: 参考，地址V7T452F4H9，“12410 W 62TH ST，AA D" 表定义中使用了以下选项行格式SERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'具有 SERDE 属性 ('quoteChar'='\"','separatorChar'=',') 但它仍然无法识别数据中的双引号，并且双引号字段中的逗号将数 ..

发布时间：2021-11-27 08:50:07 hadoop hive presto amazon-athena aws-glue 其他开发

aws athena - 通过 json 对象数组创建表

我能否获得在 AWS Athena 上创建表的帮助.对于数据示例: [{"lts": 150}] AWS Glue 将架构生成为: 数组(数组>) 当我尝试使用 AWS Glue 创建的表来预览表时，出现此错误: HIVE_BAD_DATA:解析字段 0 的字段值时出错:org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.d ..

发布时间：2021-11-27 08:49:57 json amazon-web-services amazon-athena aws-glue 其他开发

AWS Glue 自定义分类器 Json 路径

我有一组像这样的 Json 数据文件 [{“客户":“玩具"，"文件名":"toy1.csv","file_row_number":1,"secondary_db_index":"4050",“处理时间戳":1535004075，"processed_datetime":"2018-08-23T06:01:15+0000","entity_id":"4050","entity_name":"40 ..

发布时间：2021-11-27 08:49:46 jsonpath amazon-athena aws-glue 其他开发

Amazon Athena 将字符串转换为日期

我希望将以下字符串:mmm-dd-yyyy 转换为日期:yyyy-mm-dd 例如 2015 年 11 月 6 日至 2015 年 11 月 6 日在亚马逊雅典娜内解决方案我会做 date_parse.相应地调整您的正则表达式. select date_parse('Nov-06-2015','%b-%d-%Y') 2015-11-06 00:00:00.000 ..

发布时间：2021-11-27 08:49:37 amazon-web-services amazon-athena 其他开发

如何更改存储在 S3 中的 Athena 结果的名称?

Athena 查询的结果保存在 S3 中的查询 id(一个长字符串)中.我想知道是否有办法使用预先指定的名称保存查询结果?(稍后可以轻松查找) 解决方案不幸的是没有(至少现在没有)！目前最好的方法是编写一个脚本来检查每次运行的所有结果并重命名(移动+删除)该 s3 存储桶中的所有文件！ ..

发布时间：2021-11-27 08:49:26 sql amazon-web-services amazon-s3 amazon-athena 其他开发

将多个元素存储在 AWS Athena 的 json 文件中

我在 S3 存储桶中存储了一些 json 文件，其中每个文件都有多个相同结构的元素.例如， [{"eventId":"1","eventName":"INSERT","eventVersion":"1.0","eventSource":"aws:dynamodb","awsRegion":"us-west-2","image":{"Message":"New item!","Id":101}}, ..

发布时间：2021-11-27 08:49:16 sql json amazon-web-services amazon-athena 其他开发

AWS Athena 并发限制:提交的查询数 VS 正在运行的查询数

根据 AWS Athena 限制，您可以提交一次最多 20 个相同类型的查询，但这是一个软限制，可以根据要求增加.我使用 boto3 与 Athena 交互，我的脚本提交了 16 个 CTAS 查询，每个查询大约需要 2 分钟才能完成.在 AWS 账户中，只有我在使用 Athena 服务.但是，当我通过控制台查看查询状态时，我发现只有少数查询(平均 5 个)实际上正在执行，尽管它们都处于 Runn ..

发布时间：2021-11-27 08:49:04 concurrency limit amazon-emr amazon-athena aws-glue 其他开发

Amazon Athena:在投入方面没有可行的替代方案

在 Athena 中创建表时；它给了我以下异常: 没有可行的替代方案解决方案表名中不允许使用连字符..(虽然向导允许).. 只需删除连字符，它就像一个魅力 ..

发布时间：2021-11-27 08:48:57 amazon-web-services amazon-athena 其他开发

如何获取输入文件名作为 AWS Athena 外部表中的列

我在 AWS Athena 中创建了外部表来查询 S3 数据，但是，位置路径有 1000 多个文件.所以我需要将记录的对应文件名显示为表格中的一列. select file_name , col1 from table where file_name = "test20170516" 简而言之，我需要知道在 AWS Athena Presto 中等效的 INPUT__FILE__NAME(hi ..

发布时间：2021-11-27 08:48:50 sql amazon-web-services amazon-s3 presto amazon-athena 其他开发

Aws Athena - 创建外部表跳过第一行

我正在尝试使用 Aws Athena 在 csv 文件上创建一个外部表，代码如下，但行 TBLPROPERTIES ("skip.header.line.count"="1") 没有'有效:它不会跳过 csv 文件的第一行(标题). 创建外部表 mytable(colA 字符串，字符串)行格式 SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'具 ..

发布时间：2021-11-27 08:48:39 amazon-athena 其他开发

如何在 AWS Athena 中自动执行 MSCK REPAIR TABLE

我有一个每小时执行一次的 Spark 批处理作业.每次运行都会使用目录命名模式 DATA/YEAR=?/MONTH=?/DATE=?/datafile 在 S3 中生成和存储新数据. 将数据上传到 S3 后，我想使用 Athena 对其进行调查.另外，我想通过连接到 Athena 作为数据源，在 QuickSight 中将它们可视化. 问题是每次运行我的 Spark 批处理后，存储在 ..

发布时间：2021-11-27 08:48:29 amazon-web-services amazon-s3 hive amazon-athena amazon-quicksight 其他开发

您可以在 Presto/Athena 中为 AT TIME ZONE 的时区参数使用一列吗?

这是您可以在 Athena 中执行的操作- SELECT date_utc AT TIME ZONE 'America/Chicago'从(选择时间戳 '2018-09-09 12:00:00' 作为 date_utc) X; 在其他 sql 引擎中，您可以将 America/Chicago 更改为列- SELECT date_utc AT TIME ZONE x.timezone从(选择T ..

发布时间：2021-11-27 08:48:18 sql amazon-web-services amazon-athena presto 其他开发

按 S3 创建日期分区 Athena 查询

我有一个包含约 7000 万个 JSON(约 15TB)的 S3 存储桶和一个 athena 表，用于按时间戳和 JSON 中定义的其他一些键进行查询. 可以保证，JSON 中的时间戳或多或少等于 JSON 的 S3-createdDate(或至少足以满足我的查询目的) 我能否通过将 createddate 添加为“分区"之类的东西来以某种方式提高查询性能(和成本)——我不明白这似乎只 ..

发布时间：2021-11-27 08:48:09 amazon-s3 amazon-athena aws-glue 其他开发

以编程方式创建 AWS Athena 视图

您可以在 Amazon Athena 中创建视图吗? 概述了如何使用用户界面创建视图. 我想以编程方式创建一个 AWS Athena 视图，最好使用 Terraform(调用 CloudFormation). 我按照此处列出的步骤操作:https://ujjwalbhardwaj.me/post/create-virtual-views-with-aws-glue-and-query- ..

发布时间：2021-11-27 08:48:00 amazon-web-services terraform amazon-cloudformation amazon-athena terraform-provider-aws 其他开发

获取距离指定坐标 5 英里范围内的所有建筑物

我有数据库表 Building 与这些列:name、lat、lng 如何获得距离指定坐标 5 英里范围内的所有 Buildings，例如这些: -84.38653999999998 33.72024 我的尝试，但它不起作用: SELECT ST_CONTAINS(SELECT ST_BUFFER(ST_Point(-84.38653999999998,33.72024), ..

发布时间：2021-11-27 08:47:49 sql postgresql postgis presto amazon-athena 其他开发

amazon-athena相关内容