aws-glue相关内容

从胶水Cloudformation模板对Athena表进行分区

使用 AWS :: Glue ::表格,您可以在此处设置雅典娜表格.雅典娜支持基于S3中文件夹结构的分区数据.我想从我的Glue模板中对Athena表进行分区. 来自 AWS粘合表TableInput,看来我可以使用 PartitionKeys 来对数据进行分区,但是当我尝试使用以下模板时,Athena会失败并且无法获取任何数据. 资源:...MyGlueTable:类型:AWS :: G ..

输入数据格式更改时,雅典娜会将数据放入不正确的列中

我们在S3的文件夹中有一些用管道分隔的.txt报告,我们在其上运行Glue搜寻器以确定架构并在Athena中进行查询. 报告的格式最近发生了变化,因此中间有两个新列. 旧文件: 列A B C D E F数据a1 b1 c1 d1 e1 f1 带有"G"和"H"列的新文件: 列A B G H C D E F数据a2 b2 g2 h2 c2 d2 e2 f2 我们在爬网程序创建 ..
发布时间:2021-04-03 18:38:22 其他开发

AWS胶粘作业将字符串映射为日期和时间格式,同时从CSV转换为拼花

在从csv转换为镶木地板时,使用csv中映射的字段后的AWS粘合ETL作业读取为日期和时间类型的字符串。 这是实际的csv文件 在映射和转换后,提交的日期为空,时间与今天的日期连接在一起 如何使用正确的日期和时间格式进行转换? 解决方案 它使用presto数据类型,因此数据应采用正确的格式 DATE日历日期(年,月,日)。 示例:日期'2001-08-22' ..
发布时间:2020-10-31 00:01:24 其他开发

无法更新IAM以允许将AWS Glue应用于AWS Secrets Manager

我正在一个需要AWS Glue Python脚本访问AWS Secrets Manager的项目中. 我曾尝试通过IAM授予Glue权限来执行此操作,但我不知道如何做.我可以看到显示Lambda有权访问的权限字符串,但是看不到编辑权限的方法. 我尝试创建一个具有正确权限的新角色,但是当我加入该角色时,它似乎已经消失了…… 我的后备解决方法是通过一个小的Lambda来获取机密,然后 ..
发布时间:2020-09-15 19:19:09 Python

是否可以将AWS Lambda优先于AWS Glue Job?

在AWS Glue作业中,我们可以编写一些脚本并通过作业执行脚本. 在AWS Lambda中,我们也可以编写相同的脚本并执行上述作业中提供的相同逻辑. 因此,我的查询不是AWS Glue作业与AWS Lambda之间的区别,但是我想弄清楚何时应该优先使用AWS Glue作业而不是AWS Lambda,尤其是当两者都执行同一作业时?如果两者都做同样的工作,那么理想情况下,我会盲目地喜欢使 ..
发布时间:2020-09-15 19:19:05 其他开发

从DynamicFrame类中检索键的值?

对于Python DynamicFrame,如何仅检索列值? 文档 dynamicFrame.show() # getting key and value, for eg: {"key1", "value1"} 但是我必须检索特定键的唯一值(例如"key1"). 解决方案 该显示将显示列的值.如果您想要特定的“键", (我想您是指列的特定值)可以简单地做到: import ..
发布时间:2020-09-15 19:19:02 Python

向数据库列添加注释并从AWS Glue检索

我正在尝试将AWS GLUE数据目录合并到我正在构建的Data Lake中.我正在使用一些不同的数据库,并想将COMMENTS添加到其中一些表的列中.这些数据库包括Redshift和MySql.通常,我会通过 的内容将评论添加到该列中 COMMENT ON COLUMN table.column_name IS 'This is the comment'; 现在我知道Glue有一个在GUI ..

AWS Glue-从作业内部访问工作流参数

如何从粘合作业中检索粘合工作流程参数? 我有一个类型为"python shell"的AWS Glue作业,该作业是从粘合工作流程中定期触发的. 该作业的代码将在大量不同的工作流程中重用,因此我希望检索工作流程参数以消除对冗余作业的需求. AWS开发人员指南提供了以下教程: https://docs.aws.amazon. com/glue/latest/dg/workflow-r ..
发布时间:2020-09-15 19:15:44 Python

AWS Glue-空闲时间的开发端点价格

AWS Glue-Developer Endpoint的空闲时间是否收费?说,我配置了一个开发人员终结点,并且每天运行一项作业,持续30分钟.定价是每天仅持续30分钟,还是包括AWS Glue-开发人员终端节点的空闲时间. 谢谢 Yuva 解决方案 https://aws.amazon .com/glue/pricing/ 开发端点是可选的,仅当您选择以交互方式开发ETL ..
发布时间:2020-09-15 19:15:40 其他开发

与直接连接到db和retreive数据相比,搜寻器有何优势?

在AWS Glue作业中,为了从DB或S3检索数据,我们可以使用2种方法. 1)使用抓取工具2)使用直接连接到DB或S3. 所以我的问题是:爬网程序比直接连接到数据库并检索数据要好得多吗? 解决方案 AWS Glue Crawlers不会检索实际数据.抓取工具访问您的数据存储,并按优先级排序分类列表进行操作,以提取数据的架构和其他统计信息,然后使用此元数据填充 Glue数据目录.可以 ..
发布时间:2020-09-15 19:15:36 其他开发

如果AWS搜寻器的大小> 1MB,则无法对S3中的文件类型存储进行分类

当IAM尝试使用大小> = 1MB的输入Json文件的Crawler来检测文件类型时 它在胶水中创建一个表,其分类类型为“未知". 但是,当大小小于1MB时,它将文件类型成功分类为JSON. 我对文件进行了交叉检查,以确保其有效的json文件. 这对AWS爬虫来说是一个限制. 如果是这样,此问题还有其他选择. 解决方案 是的,这是由搜寻器设计的,如果元数据(内部搜寻器创建 ..
发布时间:2020-09-15 19:15:34 其他开发

AWS Glue pyspark UDF

在AWS Glue中,我需要转换一个浮点值(摄氏度到华氏度),并且正在使用UDF. 以下是我的UDF: toFahrenheit = udf(lambda x: '-1' if x in not_found else x * 9 / 5 + 32, StringType()) 我在spark数据框中使用UDF的方式如下: weather_df.withColumn("new ..
发布时间:2020-09-15 19:14:32 其他开发