aws-glue 第3页 - IT屋-程序员软件开发技术分享社区

aws athena - 通过 json 对象数组创建表

我能否获得在 AWS Athena 上创建表的帮助.对于数据示例: [{"lts": 150}] AWS Glue 将架构生成为: 数组(数组>) 当我尝试使用 AWS Glue 创建的表来预览表时，出现此错误: HIVE_BAD_DATA:解析字段 0 的字段值时出错:org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.d ..

发布时间：2021-11-27 08:49:57 json amazon-web-services amazon-athena aws-glue 其他开发

我有一组像这样的 Json 数据文件 [{“客户":“玩具"，"文件名":"toy1.csv","file_row_number":1,"secondary_db_index":"4050",“处理时间戳":1535004075，"processed_datetime":"2018-08-23T06:01:15+0000","entity_id":"4050","entity_name":"40 ..

发布时间：2021-11-27 08:49:46 jsonpath amazon-athena aws-glue 其他开发

AWS Athena 并发限制:提交的查询数 VS 正在运行的查询数

根据 AWS Athena 限制，您可以提交一次最多 20 个相同类型的查询，但这是一个软限制，可以根据要求增加.我使用 boto3 与 Athena 交互，我的脚本提交了 16 个 CTAS 查询，每个查询大约需要 2 分钟才能完成.在 AWS 账户中，只有我在使用 Athena 服务.但是，当我通过控制台查看查询状态时，我发现只有少数查询(平均 5 个)实际上正在执行，尽管它们都处于 Runn ..

发布时间：2021-11-27 08:49:04 concurrency limit amazon-emr amazon-athena aws-glue 其他开发

按 S3 创建日期分区 Athena 查询

我有一个包含约 7000 万个 JSON(约 15TB)的 S3 存储桶和一个 athena 表，用于按时间戳和 JSON 中定义的其他一些键进行查询. 可以保证，JSON 中的时间戳或多或少等于 JSON 的 S3-createdDate(或至少足以满足我的查询目的) 我能否通过将 createddate 添加为“分区"之类的东西来以某种方式提高查询性能(和成本)——我不明白这似乎只 ..

发布时间：2021-11-27 08:48:09 amazon-s3 amazon-athena aws-glue 其他开发

AWS 胶水错误 |无法使用 spark 从开发人员端点读取胶水表

即使我获得了所有必需的 IAM 权限，我也无法访问 AWS Glue 表.我什至无法列出所有数据库.这是代码. 导入系统从 awsglue.transforms 导入 *从 awsglue.utils 导入 getResolvedOptions从 pyspark.context 导入 SparkContext从 awsglue.context 导入 GlueContext从 awsglue.jo ..

发布时间：2021-11-14 23:28:36 pyspark spark-dataframe aws-glue 其他开发

spark.sql.files.maxPartitionBytes 不限制写入分区的最大大小

我正在尝试将 Parquet 数据从另一个 s3 存储桶复制到我的 s3 存储桶.我想将每个分区的大小限制为最大 128 MB.我认为默认情况下 spark.sql.files.maxPartitionBytes 会设置为 128 MB，但是当我在复制后查看 s3 中的分区文件时，我看到的单个分区文件大约为 226 MB.我正在看这篇文章，它建议我设置这个 spark 配置键以限制我的分区的最大大 ..

发布时间：2021-11-14 23:20:57 apache-spark apache-spark-sql aws-glue 其他开发

分解表以按列进行透视(SQL、PYSPARK)

我正在使用 AWS Glue 中的 python3.6 环境在 pyspark 中工作.我有这张桌子: +----+-----+-----+-----+|年|月|总计|循环|+----+-----+-----+-----+|2012|1|20|loop1||2012|2|30|loop1||2012|1|10|loop2||2012|2|5|loop2||2012|1|50|loop3||201 ..

发布时间：2021-11-14 23:12:29 sql sql-server pyspark pyspark-sql aws-glue 数据库

AWS Glue 中 1 个 DPU 中的最大并发任务数

AWS Glue 中的标准 DPU 带有 4 个 vCPU 和 2 个执行程序.我对可以与此配置并行运行的最大并发任务数感到困惑.单个 DPU 上有 4 个还是 8 个，有 4 个 vcpu 和 2 个执行程序? 解决方案我与 AWS Glue 支持团队就此进行了类似的讨论，我将与您分享他们告诉我的有关 Glue 配置的内容.以标准和 G1.X 配置为例. 标准 DPU 配置: ..

发布时间：2021-11-14 22:34:26 amazon-web-services apache-spark apache-spark-sql aws-glue 其他开发

在 AWS Glue pySpark 脚本中使用 SQL

我想使用 AWS Glue 将一些 csv 数据转换为 orc. 我创建的 ETL 作业生成了以下 PySpark 脚本: 导入系统从 awsglue.transforms 导入 *从 awsglue.utils 导入 getResolvedOptions从 pyspark.context 导入 SparkContext从 awsglue.context 导入 GlueContext从 aws ..

发布时间：2021-11-14 22:30:09 amazon-web-services pyspark pyspark-sql amazon-athena aws-glue 其他开发

如何列出 AWS Glue Catalog 中的所有数据库和表?

我在 AWS Glue 控制台中创建了一个开发终端节点，现在我可以在gluepyspark 控制台中访问 SparkContext 和 SQLContext. 如何访问目录并列出所有数据库和表?通常的 sqlContext.sql("show tables").show() 不起作用. CatalogConnection Class 但我不知道它在哪个包中.我尝试从 awsglue.c ..

发布时间：2021-11-14 22:28:52 pyspark-sql aws-glue 其他开发

使用 INSERT INTO table ON DUPLICATE KEY 时出错，使用 for 循环数组

我正在使用 pyspark 框架更新 mysql 数据库，并在 AWS Glue 服务上运行. 我有一个如下的数据框: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR NAME 55","NY"),("xxx2","81A01","TERR NAME 55","NY"),("x103","81A01","TERR NAME 01 ..

发布时间：2021-11-14 21:37:33 mysql python-2.7 pyspark pyspark-sql aws-glue 数据库

将 AWS 胶水架构注册表与融合的 SerDe 客户端结合使用

为了在我的 MSK 主题上支持架构注册表，我找到了两个选项 - AWS Glue 架构注册表；和 Confluent Schema Registry 由于 Glue SR 完全由 AWS 管理，我更愿意使用它.但是，我的生产者和消费者客户端是用 python 编写的，这限制了我在 java 中使用 AWS 提供的 SerDe 库. 我继续搜索是否可以使融合模式注册表 API(p ..

发布时间：2021-11-12 02:11:13 amazon-web-services apache-kafka aws-glue confluent-schema-registry 其他开发

通过火花数据帧读取 S3 文件时，胶水书签不起作用

我有一个存储 .gz 文件(json 格式)的 S3 存储桶.每小时将有更多文件发送到此存储桶.我想使用 Glue 以增量方式(每天)从 S3 存储桶中读取数据，将 .gz 转换为 parquet 并写回另一个 S3 存储桶. 我想我可以使用 Glue 书签来读取/转换/写入增量文件.但是，我发现如果我阅读 spark 数据框中的 .gz 文件，书签不起作用.换句话说，我下面的粘合作业不会增 ..

发布时间：2021-10-27 19:19:40 amazon-web-services amazon-s3 pyspark aws-glue 其他开发

在 AWS Glue 中转换其他列的数据类型时，某些列变为空

我正在尝试使用 AWS Glue 将 csv 数据从 AWS S3 移动到 AWS Redshift.我移动的数据使用非标准格式记录每个条目的时间戳(例如 01-JAN-2020 01.02.03)，因此我的胶水爬虫将此列作为字符串选择. 在我的作业脚本中，我通过使用 pyspark 中的“to_timestamp"函数将此列转换为时间戳，这似乎工作正常.但是，因此，数据类型为“long"的 ..

发布时间：2021-10-27 19:15:30 amazon-web-services apache-spark pyspark aws-glue 其他开发

如何停止/退出 AWS Glue 作业 (PySpark)?

我有一个成功运行的 AWS Glue 作业，可以转换数据以进行预测.如果达到特定条件，我想停止处理并输出状态消息(正在运行): 如果 specific_condition 为 None:s3.put_object(body=json_str, Bucket=output_bucket, Key=json_path )返回无这会产生“SyntaxError: 'return' external ..

发布时间：2021-10-27 19:15:27 amazon-web-services aws-glue aws-glue-spark 其他开发

将 AWS 胶水架构注册表与融合的 SerDe 客户端结合使用

为了在我的 MSK 主题上支持架构注册表，我找到了两个选项 - AWS Glue 架构注册表；和 Confluent Schema Registry 由于 Glue SR 完全由 AWS 管理，我更愿意使用它.但是，我的生产者和消费者客户端是用 python 编写的，这限制了我在 java 中使用 AWS 提供的 SerDe 库. 我继续搜索是否可以使 confluent 模式 ..

发布时间：2021-10-27 19:12:25 amazon-web-services apache-kafka aws-glue confluent-schema-registry 其他开发

使用 AWS Glue 时如何在 postgres 中将 String 保存为 JSONB 类型

我正在寻找有关如何在 postgresql 中将字符串编写为 jsonb 类型的解决方案.所以 DynamicFrame 有一个字符串列，用于保存 json 数据.尝试保存到 postgres 时 DataSink0 =glueContext.write_dynamic_frame.from_catalog(frame = Transform0, database = "cms", table_ ..

发布时间：2021-10-27 19:11:51 postgresql amazon-web-services pyspark aws-glue jsonb 其他开发

在 AWS 中运行 Python ETL 代码的最佳选择

我正在寻找关于使用哪个 AWS 服务(或其组合)在 Python 中执行 ETL 代码以转换基于文本的文件的建议: 代码/流程说明:1. Python 代码将输入文本文件从自定义供应商格式转换为 CSV 格式.2. 单个 Python 代码调用转换单个文件，并且可以在任何地方运行一分钟到 10 分钟或更长时间，因为输入文件的大小不同(从 KB 到数百 MB).3. Python 代码需要在新 ..

发布时间：2021-10-27 19:07:28 python-3.x amazon-s3 aws-lambda aws-glue aws-batch 其他开发

[XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JSON 对象

我正在一个文件夹上运行爬虫程序，该文件夹包含多个具有不同架构的文件.我希望为每个文件找到一个表格. 实际情况是，在 Glue 目录中，我实际上可以看到每个文件的表格，以及它自己的架构.但是当我尝试通过 Redshift Spectrum(在创建外部架构等之后)查询它时，我得到了这个异常: [XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JS ..

发布时间：2021-10-27 18:55:48 amazon-web-services amazon-s3 amazon-redshift aws-glue amazon-redshift-spectrum 其他开发

从选项(来自 rds - mysql)创建动态框架，提供带有 where 子句的自定义查询

我想在我的 Glue 作业中从 Aurora-rds mysql 表创建一个 DynamicFrame.我可以使用自定义查询从我的 rds 表创建 DynamicFrame - 有 where 子句吗?我不想每次都在我的 DynamicFrame 中读取整个表格，然后再进行过滤.看了这个网站，但没有在这里或其他地方找到任何选项，https://docs.aws.amazon.com/glue/la ..

发布时间：2021-09-24 20:17:51 mysql dataframe where-clause aws-glue amazon-aurora 数据库

aws-glue相关内容

aws athena - 通过 json 对象数组创建表

AWS Glue 自定义分类器 Json 路径

AWS Athena 并发限制:提交的查询数 VS 正在运行的查询数

按 S3 创建日期分区 Athena 查询

AWS 胶水错误 |无法使用 spark 从开发人员端点读取胶水表

spark.sql.files.maxPartitionBytes 不限制写入分区的最大大小

分解表以按列进行透视(SQL、PYSPARK)

AWS Glue 中 1 个 DPU 中的最大并发任务数

在 AWS Glue pySpark 脚本中使用 SQL

如何列出 AWS Glue Catalog 中的所有数据库和表?

使用 INSERT INTO table ON DUPLICATE KEY 时出错，使用 for 循环数组

将 AWS 胶水架构注册表与融合的 SerDe 客户端结合使用

通过火花数据帧读取 S3 文件时，胶水书签不起作用

在 AWS Glue 中转换其他列的数据类型时，某些列变为空

如何停止/退出 AWS Glue 作业 (PySpark)?

将 AWS 胶水架构注册表与融合的 SerDe 客户端结合使用

使用 AWS Glue 时如何在 postgres 中将 String 保存为 JSONB 类型

在 AWS 中运行 Python ETL 代码的最佳选择

[XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JSON 对象

从选项(来自 rds - mysql)创建动态框架，提供带有 where 子句的自定义查询