amazon-athena相关内容

Amazon Athena - 将时间戳转换为日期?

查看 Date/Time Athena 文档,我没有看到一个功能来做到这一点,这让我感到惊讶.我看到的最接近的是 date_trunc('week', timestamp) 但这会导致类似 2017-07-09 00:00:00.000 的结果,而我希望格式为是 2017-07-09 是否有一个简单的函数可以将时间戳转换为日期? 解决方案 没有转换函数的原因是,这可以通过类型转换来实 ..
发布时间:2021-06-21 18:38:05 其他开发

雅典娜大于日期列中的条件

我尝试在 Athena 上运行以下查询. SELECT 观察日期,COUNT(*) AS 计数从 db.table_nameWHERE观察日期>'2017-12-31'GROUP BY 观察日期 但是它产生了这个错误: SYNTAX_ERROR: line 3:24: '>'不能应用于日期,varchar(10) 这对我来说似乎很奇怪.我的查询中是否存在错误,或者 Athena 是否无法处 ..
发布时间:2021-06-21 18:37:34 其他开发

雅典娜为镶木地板文件中的时间戳字段返回错误值

我主要在这里重现我在论坛上看到的问题.aws 希望 stackoverflow 社区的回答/解释比论坛上的讨论更彻底、更具有启发性. 以下是我对这个问题的经验:我使用 Pandas 从 python 中的数据帧制作镶木地板文件,并使用 pandas.to_datetime 将一个字段/列说生日作为 datetime64[ns].这部分过程似乎完美无缺,因为我可以使用 pandas.read_ ..
发布时间:2021-06-14 19:24:05 Python

通过添加Hive/Athena的CSV文件中存在的两列来创建外部表

我有一个包含三列A,B,C的CSV文件. 我想在它的顶部创建一个具有两列A(B + C)的外部表. 是否有可能在表创建过程中使它发生?或者在创建表后是否应该创建视图? 解决方案 不能使用CSVSerDe或LasySimpleSerDe,但是可以使用RegexSerDe.表定义中的每一列都应在input.regex中具有对应的捕获组(). 例如,如果文件用逗号分隔,则可以这 ..
发布时间:2021-05-14 19:08:49 其他开发

如何使用AWS Glue将许多CSV文件转换为Parquet

我正在通过以下设置使用AWS S3,Glue和Athena: S3->胶水->雅典娜 我的原始数据作为CSV文件存储在S3上.我正在使用Elu的Glue,并且正在使用Athena来查询数据. 由于我使用的是Athena,因此我想将CSV文件转换为Parquet.我正在使用AWS Glue来执行此操作.这是我正在使用的当前过程: 运行Crawler以读取CSV文件并填充数据目 ..
发布时间:2021-04-13 18:34:17 其他开发

您可以使用Athena ODBC/JDBC返回结果的S3位置吗?

我一直在使用 metis 包通过R运行Athena查询.对于小型查询,对于具有非常大的返回数据集(例如,十万个行)的查询,似乎仍然没有可行的解决方案.但是,在AWS控制台中运行这些相同的查询时,使用下载链接来快速/直接获取查询结果的CSV文件. 这让我开始思考:是否有一种机制可以通过R发送查询,但是返回/获取查询结果所在的 S3://存储桶位置,而不是正常结果对象? 解决方案 如我上 ..
发布时间:2021-04-03 18:40:17 其他开发

胶水虚拟视图(已创建地形)未出现在雅典娜中

我正在尝试使用Terraform aws_glue_catalog_table 创建Virtual_View,据我了解,该视图应在Athena中作为视图出现. 到目前为止,我的代码似乎在Glue中创建了一个目录表,但是在Athena Views库存中什么都没有出现. 很难确切地知道问题的哪一部分.我尝试将生成的胶水表与手动创建但具有相同规格的现有胶水表进行比较,但是显示的信息中没有差异 ..
发布时间:2021-04-03 18:40:14 其他开发

从嵌套JSON在Athena中创建表

我有嵌套的JSON类型 [{“电子邮件":[{"label":“","primary":“","relationdef_id":“","type":“",“值":“"}],“许可证":[{“已分配":“","parent_type":“","parentid":“","product_type":“","purchased_license_id":“","service_type":“"},{ ..
发布时间:2021-04-03 18:40:08 其他开发

尽管键是双引号,但键是保留关键字时,AWS Athena行强制转换失败

我正在使用AWS Athena中的数据,并且正在尝试匹配某些输入数据的结构.这涉及嵌套结构,其中“来自"是“嵌套"的.是关键.这始终会引发错误. 我将问题缩小到以下事实:当您尝试将保留关键字用作行中的键时,Athena查询不起作用.下面的示例演示了此行为. 这种简单情况 SELECT CAST(ROW(1)AS ROW("from" INTEGER))失败,并出现以下错误: GENER ..
发布时间:2021-04-03 18:40:05 其他开发

在AWS Lambda上运行python脚本时出错

我正在尝试在AWS Lambda上运行以下python脚本,该脚本已手动运行,并且可以在输出S3存储桶上获得结果,而没有任何问题.但是现在当我从AWS Lambda调用脚本时出现以下错误时,不确定我是否在脚本上丢失了任何内容? #!/usr/bin/env python3导入boto3#用于执行雅典娜查询的函数def run_query(事件,上下文):...run_query(查询,数据库,s ..
发布时间:2021-04-03 18:39:59 Python

使用SQL代码向athena中的现有表添加新的分区方案

是否有可能在Athena中将分区添加到当前没有分区的现有表中?如果是这样,还请在答案中写出这样做的语法. 例如: ALTER TABLE table1 ADD PARTITION(ourDateStringCol ='2021-01-01') 上面的命令将给出以下错误: 失败:未对SemanticException表进行分区,但存在分区规范 注意:我已经进行了一次网络搜索 ..
发布时间:2021-04-03 18:39:56 其他开发

雅典娜-保留字和表格,无法查询

我将JSON数据文件放入S3,并使用AWS-Glue构建表定义.每个json“行"有大约120个字段.字段之一被称为“时间戳".小写.我有数千个大文件,不愿全部更改. 此处( https://docs.aws.amazon.com/athena/latest/ug/reserved-words.html ),我看到DDL中的TIMESTAMP是保留字.那是否意味着我将无法从Athena读取那 ..
发布时间:2021-04-03 18:39:53 其他开发

处理多行JSON?(并且,加分,CRLF)

我正在尝试创建&查询正在读取JSON文件的Athena表,但它在换行符处阻塞.更麻烦的是,它们当前是Windows换行符(CRLF) 错误消息: HIVE_CURSOR_ERROR:行不是有效的JSON对象-JSONException:JSONObject文本必须在2 [字符3行1]处以'}'结尾 出于可读性考虑,我们的JSON如下所示(每个文件一行,尽管我们有嵌套数组,但此处未包括 ..
发布时间:2021-04-03 18:39:44 其他开发

Presto SQL/Athena:选择不同日期之间的时间

我有一个包含一系列事件及其时间戳的数据库. 我发现自己需要选择整天在11:00和11:10以及21:00和21:05之间发生的所有事件. 所以我要做的是从时间戳中提取小时和分钟,并且: SELECT *在哪里(小时= 11 AND分钟 但是,我想知道是否有一种更简单/更少冗长的方法来做到这一点,例如在日期之间查询时: SELECT *"2020-07-01"和"2020-0 ..
发布时间:2021-04-03 18:39:41 其他开发