aws-glue相关内容
我能否获得在 AWS Athena 上创建表的帮助.对于数据示例: [{"lts": 150}] AWS Glue 将架构生成为: 数组(数组>) 当我尝试使用 AWS Glue 创建的表来预览表时,出现此错误: HIVE_BAD_DATA:解析字段 0 的字段值时出错:org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.d
..
我有一组像这样的 Json 数据文件 [{“客户":“玩具","文件名":"toy1.csv","file_row_number":1,"secondary_db_index":"4050",“处理时间戳":1535004075,"processed_datetime":"2018-08-23T06:01:15+0000","entity_id":"4050","entity_name":"40
..
根据 AWS Athena 限制,您可以提交一次最多 20 个相同类型的查询,但这是一个软限制,可以根据要求增加.我使用 boto3 与 Athena 交互,我的脚本提交了 16 个 CTAS 查询,每个查询大约需要 2 分钟才能完成.在 AWS 账户中,只有我在使用 Athena 服务.但是,当我通过控制台查看查询状态时,我发现只有少数查询(平均 5 个)实际上正在执行,尽管它们都处于 Runn
..
我有一个包含约 7000 万个 JSON(约 15TB)的 S3 存储桶和一个 athena 表,用于按时间戳和 JSON 中定义的其他一些键进行查询. 可以保证,JSON 中的时间戳或多或少等于 JSON 的 S3-createdDate(或至少足以满足我的查询目的) 我能否通过将 createddate 添加为“分区"之类的东西来以某种方式提高查询性能(和成本)——我不明白这似乎只
..
即使我获得了所有必需的 IAM 权限,我也无法访问 AWS Glue 表.我什至无法列出所有数据库.这是代码. 导入系统从 awsglue.transforms 导入 *从 awsglue.utils 导入 getResolvedOptions从 pyspark.context 导入 SparkContext从 awsglue.context 导入 GlueContext从 awsglue.jo
..
我正在尝试将 Parquet 数据从另一个 s3 存储桶复制到我的 s3 存储桶.我想将每个分区的大小限制为最大 128 MB.我认为默认情况下 spark.sql.files.maxPartitionBytes 会设置为 128 MB,但是当我在复制后查看 s3 中的分区文件时,我看到的单个分区文件大约为 226 MB.我正在看这篇文章,它建议我设置这个 spark 配置键以限制我的分区的最大大
..
我正在使用 AWS Glue 中的 python3.6 环境在 pyspark 中工作.我有这张桌子: +----+-----+-----+-----+|年|月|总计|循环|+----+-----+-----+-----+|2012|1|20|loop1||2012|2|30|loop1||2012|1|10|loop2||2012|2|5|loop2||2012|1|50|loop3||201
..
AWS Glue 中的标准 DPU 带有 4 个 vCPU 和 2 个执行程序.我对可以与此配置并行运行的最大并发任务数感到困惑.单个 DPU 上有 4 个还是 8 个,有 4 个 vcpu 和 2 个执行程序? 解决方案 我与 AWS Glue 支持团队就此进行了类似的讨论,我将与您分享他们告诉我的有关 Glue 配置的内容.以标准和 G1.X 配置为例. 标准 DPU 配置:
..
我想使用 AWS Glue 将一些 csv 数据转换为 orc. 我创建的 ETL 作业生成了以下 PySpark 脚本: 导入系统从 awsglue.transforms 导入 *从 awsglue.utils 导入 getResolvedOptions从 pyspark.context 导入 SparkContext从 awsglue.context 导入 GlueContext从 aws
..
我在 AWS Glue 控制台中创建了一个开发终端节点,现在我可以在gluepyspark 控制台中访问 SparkContext 和 SQLContext. 如何访问目录并列出所有数据库和表?通常的 sqlContext.sql("show tables").show() 不起作用. CatalogConnection Class 但我不知道它在哪个包中.我尝试从 awsglue.c
..
我正在使用 pyspark 框架更新 mysql 数据库,并在 AWS Glue 服务上运行. 我有一个如下的数据框: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR NAME 55","NY"),("xxx2","81A01","TERR NAME 55","NY"),("x103","81A01","TERR NAME 01
..
为了在我的 MSK 主题上支持架构注册表,我找到了两个选项 - AWS Glue 架构注册表;和 Confluent Schema Registry 由于 Glue SR 完全由 AWS 管理,我更愿意使用它.但是,我的生产者和消费者客户端是用 python 编写的,这限制了我在 java 中使用 AWS 提供的 SerDe 库. 我继续搜索是否可以使融合模式注册表 API(p
..
我有一个存储 .gz 文件(json 格式)的 S3 存储桶.每小时将有更多文件发送到此存储桶.我想使用 Glue 以增量方式(每天)从 S3 存储桶中读取数据,将 .gz 转换为 parquet 并写回另一个 S3 存储桶. 我想我可以使用 Glue 书签来读取/转换/写入增量文件.但是,我发现如果我阅读 spark 数据框中的 .gz 文件,书签不起作用.换句话说,我下面的粘合作业不会增
..
我正在尝试使用 AWS Glue 将 csv 数据从 AWS S3 移动到 AWS Redshift.我移动的数据使用非标准格式记录每个条目的时间戳(例如 01-JAN-2020 01.02.03),因此我的胶水爬虫将此列作为字符串选择. 在我的作业脚本中,我通过使用 pyspark 中的“to_timestamp"函数将此列转换为时间戳,这似乎工作正常.但是,因此,数据类型为“long"的
..
我有一个成功运行的 AWS Glue 作业,可以转换数据以进行预测.如果达到特定条件,我想停止处理并输出状态消息(正在运行): 如果 specific_condition 为 None:s3.put_object(body=json_str, Bucket=output_bucket, Key=json_path )返回无 这会产生“SyntaxError: 'return' external
..
为了在我的 MSK 主题上支持架构注册表,我找到了两个选项 - AWS Glue 架构注册表;和 Confluent Schema Registry 由于 Glue SR 完全由 AWS 管理,我更愿意使用它.但是,我的生产者和消费者客户端是用 python 编写的,这限制了我在 java 中使用 AWS 提供的 SerDe 库. 我继续搜索是否可以使 confluent 模式
..
我正在寻找有关如何在 postgresql 中将字符串编写为 jsonb 类型的解决方案.所以 DynamicFrame 有一个字符串列,用于保存 json 数据.尝试保存到 postgres 时 DataSink0 =glueContext.write_dynamic_frame.from_catalog(frame = Transform0, database = "cms", table_
..
我正在寻找关于使用哪个 AWS 服务(或其组合)在 Python 中执行 ETL 代码以转换基于文本的文件的建议: 代码/流程说明:1. Python 代码将输入文本文件从自定义供应商格式转换为 CSV 格式.2. 单个 Python 代码调用转换单个文件,并且可以在任何地方运行一分钟到 10 分钟或更长时间,因为输入文件的大小不同(从 KB 到数百 MB).3. Python 代码需要在新
..
我正在一个文件夹上运行爬虫程序,该文件夹包含多个具有不同架构的文件.我希望为每个文件找到一个表格. 实际情况是,在 Glue 目录中,我实际上可以看到每个文件的表格,以及它自己的架构.但是当我尝试通过 Redshift Spectrum(在创建外部架构等之后)查询它时,我得到了这个异常: [XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JS
..
我想在我的 Glue 作业中从 Aurora-rds mysql 表创建一个 DynamicFrame.我可以使用自定义查询从我的 rds 表创建 DynamicFrame - 有 where 子句吗?我不想每次都在我的 DynamicFrame 中读取整个表格,然后再进行过滤.看了这个网站,但没有在这里或其他地方找到任何选项,https://docs.aws.amazon.com/glue/la
..