amazon-athena 第6页 - IT屋-程序员软件开发技术分享社区

通过"$ path"查询场地

我想按表内分区下的一个文件/一组文件进行查询.我发现当我使用"$ path"字段时，Athena会扫描整个分区，而不是我想要的文件是否有一种方法可以使这种查询更加有效，并且仅扫描给定的文件?类似于文件的分区修剪... 这是一个示例查询: SELECT *来自my_tableWHERE天='2019-01-01'AND"$ path" ='s3://my-bucket/my-tab ..

发布时间：2021-04-03 18:39:39 amazon-athena 其他开发

访问雅典娜中正在更新的表

在发布 msck修复表语句时，在udpate期间仍然可以访问该表以进行查询吗? 我之所以问是因为，我正在尝试为相对较大的S3配置单元表(用于在QuickSight中生成某些报告)找出最佳的更新时间表.发出此命令是否会破坏同时运行基于此表的QuickSight报表的任何人? 解决方案是的，当您运行 MSCK REPAIR TABLE 时，该表可用于运行查询，这是一个后台进程.但是，在 ..

发布时间：2021-04-03 18:39:36 amazon-athena 其他开发

如何在具有JSON值的Amazon Athena上查询(搜索)sql?

[查询时出现第一个错误] [1] ..

发布时间：2021-04-03 18:39:33 javascript java mysql amazon-web-services amazon-athena Java开发

雅典娜跳过下划线开头的键

我正在尝试与aws athena一起对存储在s3中的json文件进行一些查询.因此，我设法创建了一个简单的架构，一切似乎都很好，直到我注意到我的某些文件没有被考虑到为止. 文件的密钥是用户ID，其中一些以_开头.所有这些在雅典娜都失踪了.它们存在于s3中.我可以拿到.它们与其他文件相似.但是雅典娜没有看到他们. 显然，它不喜欢按键开头的下划线.除了重命名所有文件之外，还有其他方法吗?密 ..

发布时间：2021-04-03 18:39:27 amazon-athena 其他开发

雅典娜:$ path与分区

我要存储每个客户的每日报告，以供Athena查询. 起初我以为我会使用 client = c_1/month = 12/day = 01/或 client = c2/date = 2020-12-01/文件夹结构，然后每天运行 MSCK REPAIR TABLE ，以使新的一天分区可用于查询. 然后我意识到存在 $ path 特殊列，因此如果我将文件存储为 2020-12-01.csv ， ..

发布时间：2021-04-03 18:39:24 presto amazon-athena 其他开发

从S3创建带有列的雅典娜表作为非结构化JSON

我当前正在按如下方式创建Athena表: 创建外部表`foo_streaming`(`type`字符串，`message` struct)被(`dt`字符串)行格式序列'org.apache.hive.hcatalog.data.JsonSerDe'存储为INPUTFORMAT'org.apache.hadoop.mapred.TextI ..

发布时间：2021-04-03 18:39:22 amazon-athena 其他开发

火花小ORC条纹

我们使用Spark整理点击流数据，然后以ORC + zlib格式将其写入S3，我尝试更改Spark中的许多设置，但是创建的ORC文件的结果条带大小仍然很小( ..

发布时间：2021-04-03 18:39:19 hadoop apache-spark presto amazon-athena 其他开发

Quicksight是否需要访问正在查询的S3 Bucket Athena?

我已经使用存储在S3中的数据，AWS Glue映射的架构，Amazon Athena的查询以及Amazon QuickSight中的可视化设置了报告堆栈. 我已授予QuickSight访问我拥有的三个aws-athena-query-results存储桶的权限(请参见下文) ..

发布时间：2021-04-03 18:39:16 amazon-web-services amazon-athena amazon-quicksight 其他开发

雅典娜(Athena)DDL适用于离子格式吗?

我正在尝试使用Athena查询 Ion中的某些文件格式，由最近添加的DynamoDB备份的“导出到S3"功能产生. 这是一个很愚蠢的格式，基本上是字符串 $ ion_1_0 后跟json.前面没有引号的 $ ion_1_0 字符串使数据无效的json . 我尝试从此处使用离子离子仪: CREATE EXTERNAL TABLE mydb.mytable(`myfields`字符串 ..

发布时间：2021-04-03 18:39:13 amazon-dynamodb amazon-athena 其他开发

重命名雅典娜中的列

Athena表"organization"从s3中的镶木地板文件中读取数据.我需要将列名从"cost"更改为"fee".数据文件可以追溯到2018年1月.如果我只是在Athena中重命名该列，则表将无法在镶木地板文件中找到新列的数据.请让我知道是否有解决方法. 解决方案您必须更改架构并指向新列"fee" 但这取决于您的情况. 如果有两个数据集，则在一个数据集中将其称为“成本" ..

发布时间：2021-04-03 18:39:10 pyspark apache-spark-sql pyspark-sql parquet amazon-athena 其他开发

如何使用镶木地板文件源重命名AWS Athena列?

我将数据作为多个镶木文件加载到我的S3存储桶文件夹中.将它们加载到Athena后，我可以成功查询数据. 有哪些方法可以重命名实木复合地板文件源的Athena表列，并且在查询后仍然能够看到重命名列下的数据? 注意:选中“编辑模式"选项后，该列将被重命名，但查询后将看不到该列下的数据. 解决方案据我所知，没有一种方法可以为这些列创建名称与在文件中称为不同名称的表.该表可以具有更少 ..

发布时间：2021-04-03 18:39:07 amazon-s3 parquet amazon-athena 其他开发

Presto(Athena)加载带有引号转义逗号的CSV文件

考虑CSV文件中的以下行: 1,0，True，"{""foo"“:null，""bar"“:null}"，0,1▲ 突出显示的是列的一部分.也就是说，此全文:"{""foo"“:null，""bar"“:null}" 是单个列的值.但是，AWS Athena会将突出显示的解释为以逗号分隔的逗号，从而将该文本错误地拆分为多列. 我知道我可以将列定界符更改为其他名称以避免此问题.我的 ..

发布时间：2021-04-03 18:39:01 csv amazon-athena presto 其他开发

Aws Athena-重命名列名

我正在尝试更改AWS Athena表中的列名.从 old_name 到 new_name . 普通DDL命令不会影响表(无法执行). 是否可以更改列名而无需从头开始删除并重新创建表? 解决方案我错了，Athena使用 HIVE DDL 语法，因此正确的命令是: ALTER TABLE %% table-name %%更改%% old-column-name %% %% new ..

发布时间：2021-04-03 18:38:58 amazon-web-services hive ddl amazon-athena 其他开发

如何创建表AWS Athena->映射Json数组?

如何为Json Array格式创建表Athena(AWS)? JSON格式示例: {“磁带":[{“状态":“可用"，“已使用":0.0，“条形码":"TEST1217F7"，“网关":"Test_Report"，"UsedGB":0.0，“日期":"2017年6月11日"，"SizeGB":107.0}，{“状态":“可用"，“已使用":0.0，“条形码":"TEST1227F7"，“ ..

发布时间：2021-04-03 18:38:54 amazon-web-services amazon-athena 其他开发

在R中，即使安装了Boto3，也没有Boto3连接Athena的错误

我正在尝试从R连接到Athena.设置"RAthena"并建立连接后，出现此错误: 错误:未检测到Boto3，请使用以下两种方法之一安装boto3:终端中的pip install boto3或install_boto().如果boto3在另一个环境中，则必须使用`reticulate :: use_python`或`reticulate :: use_condaenv`. 因此，通过使用 p ..

发布时间：2021-04-03 18:38:51 python r boto3 amazon-athena pyathena Python

使用AWS Glue Crawler指定SerDe序列化库

每次我对现有数据运行粘合搜寻器时，它会将Serde序列化库更改为 LazySimpleSerDe ，这无法正确分类(例如，对于带逗号的引用字段) org.apache.hadoop.hive.serde2.OpenCSVSerde . 我尝试制作自己的csv分类器，但这无济于事. 如何让搜寻器为生成或更新的表指定特定的序列化库? 解决方案您目前无法在“胶履带"中指定Se ..

发布时间：2021-04-03 18:38:48 amazon-web-services amazon-athena aws-glue aws-glue-data-catalog 其他开发

如何解决雅典娜的SQL注入?

我正在编写一个从Athena访问数据的Spring Java程序，但是我发现Athena JDBC驱动程序不支持PreparedStatement，有人知道如何避免在Athena上进行SQL注入吗? 解决方案在准备查询之前，您必须将SQL查询格式化为字符串，并通过字符串串联来包含变量. 换句话说，欢迎来到大约2005年的PHP编程！:-( 这使您和您的应用程序代码有责任确保变 ..

发布时间：2021-04-03 18:38:45 sql-injection amazon-athena 其他开发

从胶水Cloudformation模板对Athena表进行分区

使用 AWS :: Glue ::表格，您可以在此处设置雅典娜表格.雅典娜支持基于S3中文件夹结构的分区数据.我想从我的Glue模板中对Athena表进行分区. 来自 AWS粘合表TableInput，看来我可以使用 PartitionKeys 来对数据进行分区，但是当我尝试使用以下模板时，Athena会失败并且无法获取任何数据. 资源:...MyGlueTable:类型:AWS :: G ..

发布时间：2021-04-03 18:38:42 amazon-web-services partitioning amazon-athena aws-glue 其他开发

通过Athena跨账户访问AWS Glue数据目录

是否可以通过账户 A 的Athena界面直接访问账户 B 的AWS Glue数据目录? 解决方案我只是尝试在自己的设置中解决此问题，但后来跌跌撞撞地出现了(跨帐户访问限制下的最后一个项目符号)在此页面)上: 使用AWS Glue搜寻器，Amazon Athena或Amazon Redshift时，不支持对数据目录的跨账户访问. 因此，听起来好像即使今天有了跨帐户访问权限，他们也 ..

发布时间：2021-04-03 18:38:39 amazon-web-services amazon-athena 其他开发

如何从AWS的Athena获取结果格式JSON?

我想从AWS的Athena获取结果值格式JSON. 当我从雅典娜中选择时，结果格式如下. {test.value = {report_1 = test，report_2 = normal，report_3 = hard}} 是否有任何方法可以将JSON格式的结果替换为“:"? 列格式为 map> 解决方案选择m ..

发布时间：2021-04-03 18:38:37 hive presto amazon-athena 其他开发

amazon-athena相关内容