aws-glue相关内容
我正在使用胶水作为我的母公司元存储。我有一个每小时向注册分区写入文件的每小时作业。 表定义: CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING ) PARTITIONED BY (process_date DATE) STORED AS PARQUET LOCATION "s3://bucket/ta
..
我是AWS Glue的新手。我已经创建了一个作业,它使用两个Data Catalog表并在其上运行简单的SparkSQL查询。作业在转换步骤失败,出现异常 pyspark.sql.utils.AnalysisException: 'java.lang.RuntimeException: com.amazonaws.SdkClientException: Unable to execute H
..
是否可以在使用标准部署环境的Glue python外壳作业中使用x-ray patching for boto3? aws-xray-sdk库不在list of supported libraries中。但不包括支持的库列表中的boto3检测功能,似乎是一个明显的遗漏。 预先感谢您的考虑和回复。 推荐答案 您可以尝试Prabhakar建议的简单安装方法,在您的粘合作业中包含aw
..
无法从AWS GLue模拟GlueContext 我有这些代码行 sc = SparkContext() gluecontext = GlueContext(sc) spark = gluecontext.spark_session 如何使用python单元测试模拟GlueconText? How to mock in a python unittest a library
..
我正在尝试使用Glue ETL作为我的Python脚本的作业计划程序,该脚本还引用JSON配置文件。 根据https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html,有一个名为--extra-files的参数,它被称为指向其他文件(如配置文件)的S3路径。当我创建作业时,似乎在控制
..
我正在使用AWS Glue运行一些pyspark python代码,它有时成功,但有时失败,出现依赖错误:Resource Setup Error: Exception in thread "main" java.lang.RuntimeException: [unresolved dependency: JohnSnowLabs#spark-nlp;2.5.4: not found],错误日志如
..
error logs 在AWS GLU中运行自动创建的脚本时出错。因为数据为结构格式,并且存储/更改的表与之前创建的表相同。 Py4j.protocol.Py4JJava错误:调用o133.pyWriteDynamicFrame时出错。 :com.amazonaws.services.glue.util.SchemaException:无法将结构字段标记写入csv 请指点我哪里弄错了
..
如何对DynamicFrame内数组中的结构元素应用ResolveChoice? 供参考的DynamicFrame架构 |-- ColumnA: string |-- ColumnB: array | |-- element: struct | | |-- ColumnC: string | | |-- ColumnD: choice | |
..
尝试测试某些粘合功能和下推谓词在S3中的Avro文件上不起作用,这些文件已分区以供在配置单元中使用。我们的分区如下:YYYY-MM-DD。 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkConte
..
我是新手,我的目标是在AWS Glue中使用PySpark脚本: 从Glue=>;中的输入文件读取数据帧完成 更改满足条件=>;面临问题的某些行的列 将同一架构上更新的数据帧写入S3=>;Done 任务似乎很简单,但我找不到完成它的方法,并且仍然面临着更改代码的不同问题。 到目前为止,我的代码如下所示: Transform2.printSchema() #
..
我正在AWS中使用Glue,并尝试在本地开发环境中进行测试和调试。我按照这里的说明https://aws.amazon.com/blogs/big-data/developing-aws-glue-etl-jobs-locally-using-a-container/在本地开发Glue JOB。在这个帖子上,他们使用了Glue 1.0图像进行测试,它的工作方式是应该的。然而,当我加载并尝试用Glu
..
我有一个html文件,其结构如下:
..
如何在动态帧或数据帧上使用PySpark(Python)在AWS-Glue脚本中编写用户定义函数? 推荐答案 DynamicFrame不完全以Dataframe API支持的方式支持UDF。您将得到的最好结果是MAP.Apply。
..
如何获取执行当前胶水作业的区域? 当粘合作业开始执行时,我看到输出 Detected region eu-central-1。 在AWS Lambda中,我可以使用以下行来获取当前区域: import os region = os.environ['AWS_REGION'] 但是,AWS_REGION环境变量似乎不在Glue中,因此引发了KeyError: Key
..
我正在尝试使用雅典娜视图作为我的AWS胶水作业的数据源。我在尝试运行Glue作业时收到的错误消息与视图的分类有关。我能把它定义为什么呢? 谢谢您 Error Message Appearing 推荐答案 您可以使用Athena JDBC driver。这种方法绕过了目录,因为只有Athena(而不是2019年1月25日的Glue)可以直接访问视图。 下载驱动程序并将JAR存
..
我正在尝试使用cx_oracle从AWS GLue连接Oracle数据库,但收到此错误消息 数据库错误:DPI-1047:找不到64位Oracle客户端库:";libclntsh.so:无法打开共享对象文件:没有这样的文件或目录。有关帮助,请参阅https://cx-oracle.readthedocs.io/en/latest/user_guide/installation.htm
..
AWS文档 https://docs.aws.amazon.com/glue/latest/dg/add-job-python.html 提到 运行Python外壳作业的环境支持以下各项 库: ... pandas (需要通过python setupTools安装 配置,setup.py) 但没有提到如何进行安装。 如何在AWS Glue Python外壳作业中使用
..
我已创建2个胶水作业(Gluejob1、Gluejob2)。 我想创建一个依赖项,因为只有在glejob1完成之后,glejob2才应该运行。 为了协调这一过程,我创建了一个具有以下定义的步骤函数: { "gluejob1": { "Type": "Task", "Resource": "gluejob1.Arn", "Comment": "Glue
..
AWS步骤函数允许调用AWS Glue作业,如下所述: https://docs.aws.amazon.com/step-functions/latest/dg/connect-glue.html 我要运行该作业,并(在将结果保存到S3之后)将作业期间生成的某些元数据(如行数或筛选的行数)返回到步骤函数流。 我们可以将参数从步骤函数传递到Glue作业,如下所示:
..
我有很多通过AWS Glue读取到雅典娜的小镶木地板文件。我知道小拼图文件(每个35K左右,取决于日志输出它们的方式)并不理想,但一旦它们被读取到数据目录中,它还重要吗? 换句话说,在加载到Athena之前,我是否应该完成将所有小镶木地板文件合并为更理想大小的文件的练习? 推荐答案 即使在数据目录中注册了小文件,您也要继续为它们付出代价。当您基于许多小文件查询一个表时,Athen
..