aws-glue相关内容

AWS Athena 并发限制:提交的查询数 VS 正在运行的查询数

根据 AWS Athena 限制,您可以提交一次最多 20 个相同类型的查询,但这是一个软限制,可以根据要求增加.我使用 boto3 与 Athena 交互,我的脚本提交了 16 个 CTAS 查询,每个查询大约需要 2 分钟才能完成.在 AWS 账户中,只有我在使用 Athena 服务.但是,当我通过控制台查看查询状态时,我发现只有少数查询(平均 5 个)实际上正在执行,尽管它们都处于 Runn ..
发布时间:2021-11-27 08:49:04 其他开发

按 S3 创建日期分区 Athena 查询

我有一个包含约 7000 万个 JSON(约 15TB)的 S3 存储桶和一个 athena 表,用于按时间戳和 JSON 中定义的其他一些键进行查询. 可以保证,JSON 中的时间戳或多或少等于 JSON 的 S3-createdDate(或至少足以满足我的查询目的) 我能否通过将 createddate 添加为“分区"之类的东西来以某种方式提高查询性能(和成本)——我不明白这似乎只 ..
发布时间:2021-11-27 08:48:09 其他开发

spark.sql.files.maxPartitionBytes 不限制写入分区的最大大小

我正在尝试将 Parquet 数据从另一个 s3 存储桶复制到我的 s3 存储桶.我想将每个分区的大小限制为最大 128 MB.我认为默认情况下 spark.sql.files.maxPartitionBytes 会设置为 128 MB,但是当我在复制后查看 s3 中的分区文件时,我看到的单个分区文件大约为 226 MB.我正在看这篇文章,它建议我设置这个 spark 配置键以限制我的分区的最大大 ..
发布时间:2021-11-14 23:20:57 其他开发

AWS Glue 中 1 个 DPU 中的最大并发任务数

AWS Glue 中的标准 DPU 带有 4 个 vCPU 和 2 个执行程序.我对可以与此配置并行运行的最大并发任务数感到困惑.单个 DPU 上有 4 个还是 8 个,有 4 个 vcpu 和 2 个执行程序? 解决方案 我与 AWS Glue 支持团队就此进行了类似的讨论,我将与您分享他们告诉我的有关 Glue 配置的内容.以标准和 G1.X 配置为例. 标准 DPU 配置: ..

如何列出 AWS Glue Catalog 中的所有数据库和表?

我在 AWS Glue 控制台中创建了一个开发终端节点,现在我可以在gluepyspark 控制台中访问 SparkContext 和 SQLContext. 如何访问目录并列出所有数据库和表?通常的 sqlContext.sql("show tables").show() 不起作用. CatalogConnection Class 但我不知道它在哪个包中.我尝试从 awsglue.c ..
发布时间:2021-11-14 22:28:52 其他开发

将 AWS 胶水架构注册表与融合的 SerDe 客户端结合使用

为了在我的 MSK 主题上支持架构注册表,我找到了两个选项 - AWS Glue 架构注册表;和 Confluent Schema Registry 由于 Glue SR 完全由 AWS 管理,我更愿意使用它.但是,我的生产者和消费者客户端是用 python 编写的,这限制了我在 java 中使用 AWS 提供的 SerDe 库. 我继续搜索是否可以使融合模式注册表 API(p ..

通过火花数据帧读取 S3 文件时,胶水书签不起作用

我有一个存储 .gz 文件(json 格式)的 S3 存储桶.每小时将有更多文件发送到此存储桶.我想使用 Glue 以增量方式(每天)从 S3 存储桶中读取数据,将 .gz 转换为 parquet 并写回另一个 S3 存储桶. 我想我可以使用 Glue 书签来读取/转换/写入增量文件.但是,我发现如果我阅读 spark 数据框中的 .gz 文件,书签不起作用.换句话说,我下面的粘合作业不会增 ..
发布时间:2021-10-27 19:19:40 其他开发

在 AWS Glue 中转换其他列的数据类型时,某些列变为空

我正在尝试使用 AWS Glue 将 csv 数据从 AWS S3 移动到 AWS Redshift.我移动的数据使用非标准格式记录每个条目的时间戳(例如 01-JAN-2020 01.02.03),因此我的胶水爬虫将此列作为字符串选择. 在我的作业脚本中,我通过使用 pyspark 中的“to_timestamp"函数将此列转换为时间戳,这似乎工作正常.但是,因此,数据类型为“long"的 ..
发布时间:2021-10-27 19:15:30 其他开发

将 AWS 胶水架构注册表与融合的 SerDe 客户端结合使用

为了在我的 MSK 主题上支持架构注册表,我找到了两个选项 - AWS Glue 架构注册表;和 Confluent Schema Registry 由于 Glue SR 完全由 AWS 管理,我更愿意使用它.但是,我的生产者和消费者客户端是用 python 编写的,这限制了我在 java 中使用 AWS 提供的 SerDe 库. 我继续搜索是否可以使 confluent 模式 ..

在 AWS 中运行 Python ETL 代码的最佳选择

我正在寻找关于使用哪个 AWS 服务(或其组合)在 Python 中执行 ETL 代码以转换基于文本的文件的建议: 代码/流程说明:1. Python 代码将输入文本文件从自定义供应商格式转换为 CSV 格式.2. 单个 Python 代码调用转换单个文件,并且可以在任何地方运行一分钟到 10 分钟或更长时间,因为输入文件的大小不同(从 KB 到数百 MB).3. Python 代码需要在新 ..
发布时间:2021-10-27 19:07:28 其他开发

[XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JSON 对象

我正在一个文件夹上运行爬虫程序,该文件夹包含多个具有不同架构的文件.我希望为每个文件找到一个表格. 实际情况是,在 Glue 目录中,我实际上可以看到每个文件的表格,以及它自己的架构.但是当我尝试通过 Redshift Spectrum(在创建外部架构等之后)查询它时,我得到了这个异常: [XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JS ..

从选项(来自 rds - mysql)创建动态框架,提供带有 where 子句的自定义查询

我想在我的 Glue 作业中从 Aurora-rds mysql 表创建一个 DynamicFrame.我可以使用自定义查询从我的 rds 表创建 DynamicFrame - 有 where 子句吗?我不想每次都在我的 DynamicFrame 中读取整个表格,然后再进行过滤.看了这个网站,但没有在这里或其他地方找到任何选项,https://docs.aws.amazon.com/glue/la ..
发布时间:2021-09-24 20:17:51 数据库