amazon-athena相关内容

我可以从 Athena 中删除数据(表中的行)吗?

是否可以通过 Athena 查询删除存储在 S3 中的数据?我必须从几个表中删除一些行(它们指向 S3 中的单独存储桶). 我在 Athena 用户指南中找不到这样做的方法:https://docs.aws.amazon.com/athena/latest/ug/athena-ug.pdf 和 DELETE FROM 不受支持,但我是想知道是否有比尝试在 S3 中查找文件并删除它们更简单的方 ..
发布时间:2021-11-27 08:50:50 其他开发

AWS Athena 将结构数组导出到 JSON

我有一个 Athena 表,其中一些字段具有相当复杂的嵌套格式.S3 中的支持记录是 JSON.沿着这些思路(但我们有更多层次的嵌套): CREATE EXTERNAL TABLE IF NOT EXISTS test (时间戳加倍,统计数组,dets array, header:struct>>,pos结构)行格式 SERDE 'org.openx.data.jsonserde.JsonSer ..
发布时间:2021-11-27 08:50:43 其他开发

athena presto - 从长到宽的多列

我是 Athena 的新手,我正在尝试了解如何将多列从长格式转换为宽格式.看起来 presto 是需要的,但我只能成功地将 map_agg 应用于一个变量.我认为使用 multimap_agg 可以实现我下面的最终结果,但不能完全让它工作. 下面我将介绍我的步骤和数据.如果您有任何建议或问题,请告诉我! 首先,数据是这样开始的: id |信|数量 |价值--------------- ..
发布时间:2021-11-27 08:50:33 其他开发

如何避免 AWS Athena CTAS 查询创建小文件?

我无法弄清楚我的 CTAS 查询出了什么问题,即使我没有提到任何分桶列,它也会在存储在分区内时将数据分解成更小的文件.有没有办法避免这些小文件并将每个分区存储为一个文件,因为小于 128 MB 的文件会导致额外的开销? CREATE TABLE sampledb.yellow_trip_data_parquet和(格式 = '镶木地板'parquet_compression = 'GZIP',e ..
发布时间:2021-11-27 08:50:24 其他开发

如何更改存储在 S3 中的 Athena 结果的名称?

Athena 查询的结果保存在 S3 中的查询 id(一个长字符串)中.我想知道是否有办法使用预先指定的名称保存查询结果?(稍后可以轻松查找) 解决方案 不幸的是没有(至少现在没有)!目前最好的方法是编写一个脚本来检查每次运行的所有结果并重命名(移动+删除)该 s3 存储桶中的所有文件! ..
发布时间:2021-11-27 08:49:26 其他开发

AWS Athena 并发限制:提交的查询数 VS 正在运行的查询数

根据 AWS Athena 限制,您可以提交一次最多 20 个相同类型的查询,但这是一个软限制,可以根据要求增加.我使用 boto3 与 Athena 交互,我的脚本提交了 16 个 CTAS 查询,每个查询大约需要 2 分钟才能完成.在 AWS 账户中,只有我在使用 Athena 服务.但是,当我通过控制台查看查询状态时,我发现只有少数查询(平均 5 个)实际上正在执行,尽管它们都处于 Runn ..
发布时间:2021-11-27 08:49:04 其他开发

Aws Athena - 创建外部表跳过第一行

我正在尝试使用 Aws Athena 在 csv 文件上创建一个外部表,代码如下,但行 TBLPROPERTIES ("skip.header.line.count"="1") 没有'有效:它不会跳过 csv 文件的第一行(标题). 创建外部表 mytable(colA 字符串,字符串)行格式 SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'具 ..
发布时间:2021-11-27 08:48:39 其他开发

如何在 AWS Athena 中自动执行 MSCK REPAIR TABLE

我有一个每小时执行一次的 Spark 批处理作业.每次运行都会使用目录命名模式 DATA/YEAR=?/MONTH=?/DATE=?/datafile 在 S3 中生成和存储新数据. 将数据上传到 S3 后,我想使用 Athena 对其进行调查.另外,我想通过连接到 Athena 作为数据源,在 QuickSight 中将它们可视化. 问题是每次运行我的 Spark 批处理后,存储在 ..

按 S3 创建日期分区 Athena 查询

我有一个包含约 7000 万个 JSON(约 15TB)的 S3 存储桶和一个 athena 表,用于按时间戳和 JSON 中定义的其他一些键进行查询. 可以保证,JSON 中的时间戳或多或少等于 JSON 的 S3-createdDate(或至少足以满足我的查询目的) 我能否通过将 createddate 添加为“分区"之类的东西来以某种方式提高查询性能(和成本)——我不明白这似乎只 ..
发布时间:2021-11-27 08:48:09 其他开发