aws-glue - IT屋-程序员软件开发技术分享社区

Spark Have SQL返回空数据帧

我正在使用胶水作为我的母公司元存储。我有一个每小时向注册分区写入文件的每小时作业。表定义： CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING ) PARTITIONED BY (process_date DATE) STORED AS PARQUET LOCATION "s3://bucket/ta ..

发布时间：2022-08-16 19:22:46 apache-spark hive amazon-emr aws-glue 其他开发

我是AWS Glue的新手。我已经创建了一个作业，它使用两个Data Catalog表并在其上运行简单的SparkSQL查询。作业在转换步骤失败，出现异常 pyspark.sql.utils.AnalysisException: 'java.lang.RuntimeException: com.amazonaws.SdkClientException: Unable to execute H ..

发布时间：2022-08-16 19:17:27 amazon-web-services aws-glue 其他开发

在Glue Python外壳作业中使用AWS X-Ray

是否可以在使用标准部署环境的Glue python外壳作业中使用x-ray patching for boto3？ aws-xray-sdk库不在list of supported libraries中。但不包括支持的库列表中的boto3检测功能，似乎是一个明显的遗漏。预先感谢您的考虑和回复。推荐答案您可以尝试Prabhakar建议的简单安装方法，在您的粘合作业中包含aw ..

发布时间：2022-08-16 19:06:37 python amazon-web-services boto3 aws-glue aws-xray Python

如何使用python unittest模拟AWS库GlueContext

无法从AWS GLue模拟GlueContext 我有这些代码行 sc = SparkContext() gluecontext = GlueContext(sc) spark = gluecontext.spark_session 如何使用python单元测试模拟GlueconText？ How to mock in a python unittest a library ..

发布时间：2022-08-16 18:58:42 python aws-glue Python

粘合ETL：如何使用AWS管理控制台将配置文件引用为额外文件？

我正在尝试使用Glue ETL作为我的Python脚本的作业计划程序，该脚本还引用JSON配置文件。根据https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html，有一个名为--extra-files的参数，它被称为指向其他文件(如配置文件)的S3路径。当我创建作业时，似乎在控制 ..

发布时间：2022-07-02 19:40:06 python amazon-web-services amazon-s3 config aws-glue Python

粘合作业失败，出现`JohnSnowLabs Spark-NLP依赖项未找到‘随机错误

我正在使用AWS Glue运行一些pyspark python代码，它有时成功，但有时失败，出现依赖错误：Resource Setup Error: Exception in thread "main" java.lang.RuntimeException: [unresolved dependency: JohnSnowLabs#spark-nlp;2.5.4: not found]，错误日志如 ..

发布时间：2022-05-28 13:12:41 java amazon-web-services apache-spark aws-glue johnsnowlabs-spark-nlp Java开发

Py4j.protocol.Py4JJava错误：调用o133.pyWriteDynamicFrame时出错

error logs 在AWS GLU中运行自动创建的脚本时出错。因为数据为结构格式，并且存储/更改的表与之前创建的表相同。 Py4j.protocol.Py4JJava错误：调用o133.pyWriteDynamicFrame时出错。：com.amazonaws.services.glue.util.SchemaException：无法将结构字段标记写入csv 请指点我哪里弄错了 ..

发布时间：2022-05-28 13:03:49 aws-glue 其他开发

在AWS Glue中，如何对DynamicFrame中的数组中的结构元素应用解决方案选择？

发布时间：2022-05-28 12:52:44 amazon-web-services aws-glue 其他开发

AWS下推谓词在读取配置单元分区时不起作用

尝试测试某些粘合功能和下推谓词在S3中的Avro文件上不起作用，这些文件已分区以供在配置单元中使用。我们的分区如下：YYYY-MM-DD。 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkConte ..

发布时间：2022-05-28 12:46:41 amazon-web-services aws-glue 其他开发

在PySpark中更新数据帧的某些行或创建新的数据帧

我是新手，我的目标是在AWS Glue中使用PySpark脚本：从Glue=>；中的输入文件读取数据帧完成更改满足条件=>；面临问题的某些行的列将同一架构上更新的数据帧写入S3=>；Done 任务似乎很简单，但我找不到完成它的方法，并且仍然面临着更改代码的不同问题。到目前为止，我的代码如下所示： Transform2.printSchema() # ..

发布时间：2022-05-28 12:35:27 dataframe pyspark aws-glue 其他开发

AWS Glue 3.0容器不适用于Jupyter笔记本电脑的本地开发

我正在AWS中使用Glue，并尝试在本地开发环境中进行测试和调试。我按照这里的说明https://aws.amazon.com/blogs/big-data/developing-aws-glue-etl-jobs-locally-using-a-container/在本地开发Glue JOB。在这个帖子上，他们使用了Glue 1.0图像进行测试，它的工作方式是应该的。然而，当我加载并尝试用Glu ..

发布时间：2022-05-28 12:25:37 amazon-web-services jupyter-notebook aws-glue 其他开发

AWS Glue无法对我的数据进行分类

我有一个html文件，其结构如下： ..

发布时间：2022-05-28 12:20:47 amazon-web-services logstash-grok aws-glue 其他开发

如何在AWS-Glue脚本中编写用户定义函数？

如何在动态帧或数据帧上使用PySpark(Python)在AWS-Glue脚本中编写用户定义函数？推荐答案 DynamicFrame不完全以Dataframe API支持的方式支持UDF。您将得到的最好结果是MAP.Apply。 ..

发布时间：2022-05-28 12:17:37 python pyspark aws-glue Python

AWS GLue中的AWS区域

如何获取执行当前胶水作业的区域？当粘合作业开始执行时，我看到输出 Detected region eu-central-1。在AWS Lambda中，我可以使用以下行来获取当前区域： import os region = os.environ['AWS_REGION'] 但是，AWS_REGION环境变量似乎不在Glue中，因此引发了KeyError： Key ..

发布时间：2022-05-28 12:13:55 python amazon-web-services aws-glue Python

我是否可以将Athena View用作AWS胶水作业的来源？

我正在尝试使用雅典娜视图作为我的AWS胶水作业的数据源。我在尝试运行Glue作业时收到的错误消息与视图的分类有关。我能把它定义为什么呢？谢谢您 Error Message Appearing 推荐答案您可以使用Athena JDBC driver。这种方法绕过了目录，因为只有Athena(而不是2019年1月25日的Glue)可以直接访问视图。下载驱动程序并将JAR存 ..

发布时间：2022-05-28 12:09:50 amazon-web-services jobs amazon-athena aws-glue 其他开发

无法从AWS Glue使用CX_ORACLE连接Oracle数据库

我正在尝试使用cx_oracle从AWS GLue连接Oracle数据库，但收到此错误消息数据库错误：DPI-1047：找不到64位Oracle客户端库："；libclntsh.so：无法打开共享对象文件：没有这样的文件或目录。有关帮助，请参阅https://cx-oracle.readthedocs.io/en/latest/user_guide/installation.htm ..

发布时间：2022-05-28 12:00:26 oracle amazon-web-services aws-glue 数据库

使用Pandas AWS Glue Python外壳作业

AWS文档 https://docs.aws.amazon.com/glue/latest/dg/add-job-python.html 提到运行Python外壳作业的环境支持以下各项库： ... pandas (需要通过python setupTools安装配置，setup.py) 但没有提到如何进行安装。如何在AWS Glue Python外壳作业中使用 ..

发布时间：2022-05-28 11:57:01 python pandas aws-glue Python

步骤函数中的AWS粘合作业依赖关系

我已创建2个胶水作业(Gluejob1、Gluejob2)。我想创建一个依赖项，因为只有在glejob1完成之后，glejob2才应该运行。为了协调这一过程，我创建了一个具有以下定义的步骤函数： { "gluejob1": { "Type": "Task", "Resource": "gluejob1.Arn", "Comment": "Glue ..

发布时间：2022-05-28 11:46:49 amazon-web-services aws-glue aws-step-functions 其他开发

如何将AWS Glue作业的输出返回到调用步骤函数工作流？

AWS步骤函数允许调用AWS Glue作业，如下所述： https://docs.aws.amazon.com/step-functions/latest/dg/connect-glue.html 我要运行该作业，并(在将结果保存到S3之后)将作业期间生成的某些元数据(如行数或筛选的行数)返回到步骤函数流。我们可以将参数从步骤函数传递到Glue作业，如下所示： ..

发布时间：2022-05-28 11:39:27 amazon-web-services aws-glue aws-step-functions 其他开发

AWS雅典娜-合并小镶木地板文件还是离开它们？

我有很多通过AWS Glue读取到雅典娜的小镶木地板文件。我知道小拼图文件(每个35K左右，取决于日志输出它们的方式)并不理想，但一旦它们被读取到数据目录中，它还重要吗？换句话说，在加载到Athena之前，我是否应该完成将所有小镶木地板文件合并为更理想大小的文件的练习？推荐答案即使在数据目录中注册了小文件，您也要继续为它们付出代价。当您基于许多小文件查询一个表时，Athen ..

发布时间：2022-05-11 22:35:55 amazon-web-services parquet aws-glue amazon-athena 其他开发

aws-glue相关内容