aws-glue相关内容

Spark Have SQL返回空数据帧

我正在使用胶水作为我的母公司元存储。我有一个每小时向注册分区写入文件的每小时作业。 表定义: CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING ) PARTITIONED BY (process_date DATE) STORED AS PARQUET LOCATION "s3://bucket/ta ..
发布时间:2022-08-16 19:22:46 其他开发

在Glue Python外壳作业中使用AWS X-Ray

是否可以在使用标准部署环境的Glue python外壳作业中使用x-ray patching for boto3? aws-xray-sdk库不在list of supported libraries中。但不包括支持的库列表中的boto3检测功能,似乎是一个明显的遗漏。 预先感谢您的考虑和回复。 推荐答案 您可以尝试Prabhakar建议的简单安装方法,在您的粘合作业中包含aw ..
发布时间:2022-08-16 19:06:37 Python

粘合ETL:如何使用AWS管理控制台将配置文件引用为额外文件?

我正在尝试使用Glue ETL作为我的Python脚本的作业计划程序,该脚本还引用JSON配置文件。 根据https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html,有一个名为--extra-files的参数,它被称为指向其他文件(如配置文件)的S3路径。当我创建作业时,似乎在控制 ..
发布时间:2022-07-02 19:40:06 Python

Py4j.protocol.Py4JJava错误:调用o133.pyWriteDynamicFrame时出错

error logs 在AWS GLU中运行自动创建的脚本时出错。因为数据为结构格式,并且存储/更改的表与之前创建的表相同。 Py4j.protocol.Py4JJava错误:调用o133.pyWriteDynamicFrame时出错。 :com.amazonaws.services.glue.util.SchemaException:无法将结构字段标记写入csv 请指点我哪里弄错了 ..
发布时间:2022-05-28 13:03:49 其他开发

在PySpark中更新数据帧的某些行或创建新的数据帧

我是新手,我的目标是在AWS Glue中使用PySpark脚本: 从Glue=>;中的输入文件读取数据帧完成 更改满足条件=>;面临问题的某些行的列 将同一架构上更新的数据帧写入S3=>;Done 任务似乎很简单,但我找不到完成它的方法,并且仍然面临着更改代码的不同问题。 到目前为止,我的代码如下所示: Transform2.printSchema() # ..
发布时间:2022-05-28 12:35:27 其他开发

AWS Glue 3.0容器不适用于Jupyter笔记本电脑的本地开发

我正在AWS中使用Glue,并尝试在本地开发环境中进行测试和调试。我按照这里的说明https://aws.amazon.com/blogs/big-data/developing-aws-glue-etl-jobs-locally-using-a-container/在本地开发Glue JOB。在这个帖子上,他们使用了Glue 1.0图像进行测试,它的工作方式是应该的。然而,当我加载并尝试用Glu ..
发布时间:2022-05-28 12:25:37 其他开发

AWS GLue中的AWS区域

如何获取执行当前胶水作业的区域? 当粘合作业开始执行时,我看到输出 Detected region eu-central-1。 在AWS Lambda中,我可以使用以下行来获取当前区域: import os region = os.environ['AWS_REGION'] 但是,AWS_REGION环境变量似乎不在Glue中,因此引发了KeyError: Key ..
发布时间:2022-05-28 12:13:55 Python

我是否可以将Athena View用作AWS胶水作业的来源?

我正在尝试使用雅典娜视图作为我的AWS胶水作业的数据源。我在尝试运行Glue作业时收到的错误消息与视图的分类有关。我能把它定义为什么呢? 谢谢您 Error Message Appearing 推荐答案 您可以使用Athena JDBC driver。这种方法绕过了目录,因为只有Athena(而不是2019年1月25日的Glue)可以直接访问视图。 下载驱动程序并将JAR存 ..
发布时间:2022-05-28 12:09:50 其他开发

使用Pandas AWS Glue Python外壳作业

AWS文档 https://docs.aws.amazon.com/glue/latest/dg/add-job-python.html 提到 运行Python外壳作业的环境支持以下各项 库: ... pandas (需要通过python setupTools安装 配置,setup.py) 但没有提到如何进行安装。 如何在AWS Glue Python外壳作业中使用 ..
发布时间:2022-05-28 11:57:01 Python

如何将AWS Glue作业的输出返回到调用步骤函数工作流?

AWS步骤函数允许调用AWS Glue作业,如下所述: https://docs.aws.amazon.com/step-functions/latest/dg/connect-glue.html 我要运行该作业,并(在将结果保存到S3之后)将作业期间生成的某些元数据(如行数或筛选的行数)返回到步骤函数流。 我们可以将参数从步骤函数传递到Glue作业,如下所示: ..
发布时间:2022-05-28 11:39:27 其他开发

AWS雅典娜-合并小镶木地板文件还是离开它们?

我有很多通过AWS Glue读取到雅典娜的小镶木地板文件。我知道小拼图文件(每个35K左右,取决于日志输出它们的方式)并不理想,但一旦它们被读取到数据目录中,它还重要吗? 换句话说,在加载到Athena之前,我是否应该完成将所有小镶木地板文件合并为更理想大小的文件的练习? 推荐答案 即使在数据目录中注册了小文件,您也要继续为它们付出代价。当您基于许多小文件查询一个表时,Athen ..
发布时间:2022-05-11 22:35:55 其他开发