aws-glue 第6页 - IT屋-程序员软件开发技术分享社区

从胶水Cloudformation模板对Athena表进行分区

使用 AWS :: Glue ::表格，您可以在此处设置雅典娜表格.雅典娜支持基于S3中文件夹结构的分区数据.我想从我的Glue模板中对Athena表进行分区. 来自 AWS粘合表TableInput，看来我可以使用 PartitionKeys 来对数据进行分区，但是当我尝试使用以下模板时，Athena会失败并且无法获取任何数据. 资源:...MyGlueTable:类型:AWS :: G ..

发布时间：2021-04-03 18:38:42 amazon-web-services partitioning amazon-athena aws-glue 其他开发

输入数据格式更改时，雅典娜会将数据放入不正确的列中

我们在S3的文件夹中有一些用管道分隔的.txt报告，我们在其上运行Glue搜寻器以确定架构并在Athena中进行查询. 报告的格式最近发生了变化，因此中间有两个新列. 旧文件: 列A B C D E F数据a1 b1 c1 d1 e1 f1 带有"G"和"H"列的新文件: 列A B G H C D E F数据a2 b2 g2 h2 c2 d2 e2 f2 我们在爬网程序创建 ..

发布时间：2021-04-03 18:38:22 amazon-web-services amazon-athena aws-glue 其他开发

aws athena-通过json对象数组创建表

我可以在AWS Athena上创建表方面获得帮助吗?有关数据的示例示例: [{“" lts“:150}] AWS Glue将模式生成为: 数组(array>) 当我尝试使用AWS Glue创建的表预览表时，出现此错误: HIVE_BAD_DATA:解析字段0的字段值时出错:org.openx.data.jsonserde.json.JSONOb ..

发布时间：2021-04-03 18:38:10 json amazon-web-services amazon-athena aws-glue 其他开发

在Athena中查询可选的嵌套JSON字段

我有看起来像的json数据: { "col1" : 123, "metadata" : { "opt1" : 456, "opt2" : 789 } } 其中各种元数据字段(其中有很多)是可选的，可能会也可能不会出现. 我的查询是: select col1, metadata.opt1 from "db-name".tablename 如果任何行中都不存在opt1，我希望 ..

发布时间：2021-02-13 20:24:38 json amazon-web-services aws-glue amazon-athena 其他开发

AWS胶粘作业将字符串映射为日期和时间格式，同时从CSV转换为拼花

在从csv转换为镶木地板时，使用csv中映射的字段后的AWS粘合ETL作业读取为日期和时间类型的字符串。这是实际的csv文件在映射和转换后，提交的日期为空，时间与今天的日期连接在一起如何使用正确的日期和时间格式进行转换？解决方案它使用presto数据类型，因此数据应采用正确的格式 DATE日历日期（年，月，日）。示例：日期'2001-08-22' ..

发布时间：2020-10-31 00:01:24 amazon-s3 etl parquet amazon-athena aws-glue 其他开发

将Amazon SageMaker端点集成到Glue或EMR上的批处理ETL工作流程中

如何最好地通过基于Glue，基于EMR的Spark Jobs配置上述AWS Sagemaker ML模型端点？我们在AWS文档“这里” ，创建了一个名为'linear-learner-2019-11-04-01-57-20-572'的端点，可以将其调用为 response = client.invoke_endpoint（EndpointName ='linear-learner- ..

发布时间：2020-10-29 05:31:03 python amazon-web-services amazon-emr aws-glue amazon-sagemaker Python

从创建的胶水客户端Scala中提取AWS Glue凭证

我正在尝试引用此问题来提取嵌入式连接凭证。但出现以下错误。 import org.apache.spark.sql.SparkSession import org.apache。 spark.sql.types._ //从包导入所有内容导入org.apache.spark.sql.expressions。{Window => W} import org.apache.spar ..

发布时间：2020-10-08 03:23:03 java scala connection aws-glue aws-sdk-java-2.0 Java开发

无法更新IAM以允许将AWS Glue应用于AWS Secrets Manager

我正在一个需要AWS Glue Python脚本访问AWS Secrets Manager的项目中. 我曾尝试通过IAM授予Glue权限来执行此操作，但我不知道如何做.我可以看到显示Lambda有权访问的权限字符串，但是看不到编辑权限的方法. 我尝试创建一个具有正确权限的新角色，但是当我加入该角色时，它似乎已经消失了…… 我的后备解决方法是通过一个小的Lambda来获取机密，然后 ..

发布时间：2020-09-15 19:19:09 python aws-lambda aws-glue aws-secrets-manager Python

是否可以将AWS Lambda优先于AWS Glue Job?

在AWS Glue作业中，我们可以编写一些脚本并通过作业执行脚本. 在AWS Lambda中，我们也可以编写相同的脚本并执行上述作业中提供的相同逻辑. 因此，我的查询不是AWS Glue作业与AWS Lambda之间的区别，但是我想弄清楚何时应该优先使用AWS Glue作业而不是AWS Lambda，尤其是当两者都执行同一作业时?如果两者都做同样的工作，那么理想情况下，我会盲目地喜欢使 ..

发布时间：2020-09-15 19:19:05 amazon-web-services aws-lambda aws-glue 其他开发

从DynamicFrame类中检索键的值?

对于Python DynamicFrame，如何仅检索列值? 文档 dynamicFrame.show() # getting key and value, for eg: {"key1", "value1"} 但是我必须检索特定键的唯一值(例如"key1"). 解决方案该显示将显示列的值.如果您想要特定的“键"， (我想您是指列的特定值)可以简单地做到: import ..

发布时间：2020-09-15 19:19:02 python pyspark aws-glue Python

向数据库列添加注释并从AWS Glue检索

我正在尝试将AWS GLUE数据目录合并到我正在构建的Data Lake中.我正在使用一些不同的数据库，并想将COMMENTS添加到其中一些表的列中.这些数据库包括Redshift和MySql.通常，我会通过的内容将评论添加到该列中 COMMENT ON COLUMN table.column_name IS 'This is the comment'; 现在我知道Glue有一个在GUI ..

发布时间：2020-09-15 19:19:00 database amazon-web-services aws-glue aws-glue-data-catalog 其他开发

使用pyspark AWS胶水时显示DataFrame

如何显示带有awl胶水作业的DataFrame? 我在下面尝试了此代码，但未显示任何内容. df.show() 代码 datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "flux-test", table_name = "tab1", transformation_ctx = "dat ..

发布时间：2020-09-15 19:17:58 python-3.x apache-spark pyspark aws-glue 其他开发

AWS Glue错误|无法使用Spark从开发人员端点读取Glue表

即使我提供了所有必需的IAM权限，我也无法访问AWS Glue表.我什至无法列出所有数据库.这是代码. import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.co ..

发布时间：2020-09-15 19:17:54 pyspark spark-dataframe aws-glue 其他开发

从AWS胶pythonshell作业中的有效负载检索s3路径

我在AWS胶内有一个pythonshell作业，需要从s3路径下载文件.该s3路径位置是一个变量，因此将作为start_run_job调用中的有效负载进入胶粘作业，如下所示: import boto3 payload = {'s3_target_file':s3_TARGET_FILE_PATH, 's3_test_file': s3_TEST_FILE_PA ..

发布时间：2020-09-15 19:16:51 python amazon-web-services boto3 aws-glue Python

从boto3调用AWS Glue Pythonshell作业时出现参数错误

基于上一篇文章，我有一个AWS Glue Pythonshell作业，需要从通过boto3调用传递给它的参数中检索一些信息. 我的胶水工作名称是test_metrics Glue pythonshell代码如下所示 import sys from awsglue.utils import getResolvedOptions args = getResolvedOptions( ..

发布时间：2020-09-15 19:15:48 amazon-web-services boto3 aws-glue 其他开发

AWS Glue-从作业内部访问工作流参数

如何从粘合作业中检索粘合工作流程参数? 我有一个类型为"python shell"的AWS Glue作业，该作业是从粘合工作流程中定期触发的. 该作业的代码将在大量不同的工作流程中重用，因此我希望检索工作流程参数以消除对冗余作业的需求. AWS开发人员指南提供了以下教程: https://docs.aws.amazon. com/glue/latest/dg/workflow-r ..

发布时间：2020-09-15 19:15:44 python amazon-web-services aws-glue Python

AWS Glue-空闲时间的开发端点价格

AWS Glue-Developer Endpoint的空闲时间是否收费?说，我配置了一个开发人员终结点，并且每天运行一项作业，持续30分钟.定价是每天仅持续30分钟，还是包括AWS Glue-开发人员终端节点的空闲时间. 谢谢 Yuva 解决方案 https://aws.amazon .com/glue/pricing/ 开发端点是可选的，仅当您选择以交互方式开发ETL ..

发布时间：2020-09-15 19:15:40 aws-glue 其他开发

与直接连接到db和retreive数据相比，搜寻器有何优势?

在AWS Glue作业中，为了从DB或S3检索数据，我们可以使用2种方法. 1)使用抓取工具2)使用直接连接到DB或S3. 所以我的问题是:爬网程序比直接连接到数据库并检索数据要好得多吗? 解决方案 AWS Glue Crawlers不会检索实际数据.抓取工具访问您的数据存储，并按优先级排序分类列表进行操作，以提取数据的架构和其他统计信息，然后使用此元数据填充 Glue数据目录.可以 ..

发布时间：2020-09-15 19:15:36 amazon-web-services aws-glue hive-metastore 其他开发

如果AWS搜寻器的大小> 1MB，则无法对S3中的文件类型存储进行分类

当IAM尝试使用大小> = 1MB的输入Json文件的Crawler来检测文件类型时它在胶水中创建一个表，其分类类型为“未知". 但是，当大小小于1MB时，它将文件类型成功分类为JSON. 我对文件进行了交叉检查，以确保其有效的json文件. 这对AWS爬虫来说是一个限制. 如果是这样，此问题还有其他选择. 解决方案是的，这是由搜寻器设计的，如果元数据(内部搜寻器创建 ..

发布时间：2020-09-15 19:15:34 aws-glue 其他开发

AWS Glue pyspark UDF

在AWS Glue中，我需要转换一个浮点值(摄氏度到华氏度)，并且正在使用UDF. 以下是我的UDF: toFahrenheit = udf(lambda x: '-1' if x in not_found else x * 9 / 5 + 32, StringType()) 我在spark数据框中使用UDF的方式如下: weather_df.withColumn("new ..

发布时间：2020-09-15 19:14:32 pyspark aws-glue 其他开发

aws-glue相关内容