aws-glue相关内容

从S3移动数据->使用AWS Glue的RDS

AWS Glue是否提供将数据从S3存储桶移动到RDS数据库的功能? 我正在尝试设置无服务器应用程序,该应用程序将提取上传到S3的动态数据并将其迁移到RDS. Glue提供了用于确定架构的Crawlers服务. Glue还提供ETL作业,但这似乎是目标源只是另一个S3存储桶的地方. 有什么想法吗? 解决方案 是的,Glue可以发送到RDS数据存储.如果您使用作业向导 ..
发布时间:2020-08-23 03:18:18 其他开发

Firehose JSON-> S3实木复合地板-> ETL Spark,错误:无法推断Parquet的架构

这似乎很容易,就像这是这套功能的核心用例一样,但这是一个又一个问题. 最新的方法是尝试通过Glue Dev端点(PySpark和Scala端点)运行命令. 按照此处的说明进行操作: https://docs.aws.amazon.com/glue/latest/dg/dev-endpoint-tutorial-repl.html import sys from pyspark.c ..
发布时间:2020-08-23 03:06:49 其他开发

从EMR迁移到AWS Glue后在Spark SQL中找不到表

我在EMR上有Spark作业,并且将EMR配置为对Hive和Spark元数据使用Glue目录. 我创建了Hive外部表,它们出现在Glue目录中,我的Spark作业可以在Spark SQL中像spark.sql("select * from hive_table ...") 一样引用它们. 现在,当我尝试在Glue作业中运行相同的代码时,它将失败,并显示“找不到表"错误.看来Glue作业 ..
发布时间:2020-08-23 02:33:15 其他开发

带AWS Glue的Spark Catalog:找不到数据库

我已经使用“胶水数据"目录创建了一个EMR集群.调用spark-shell时,我可以通过 成功列出存储在Glue数据库中的表 spark.catalog.setCurrentDatabase("test") spark.catalog.listTables 但是,当我通过spark-submit提交工作时,出现致命错误 ERROR ApplicationMaster: User cl ..
发布时间:2020-08-23 02:31:44 其他开发

针对AWS EMR的AWS Glue定价

我正在对AWS Glue与AWS EMR之间的价格进行比较,以便在EMR和胶水. 我考虑了6个DPU(4个vCPU + 16 GB内存),其中ETL Job运行了10分钟,持续了30天.假设预期的搜寻器请求比免费套餐高出100万,则每增加一百万个请求,其爬虫的计算费用为1美元. 在EMR上,我同时考虑了EC2和&具有6个节点的EMR(分别定价为$ 0.266和$ 0.070),运行10 ..
发布时间:2020-08-23 02:10:36 其他开发

AWS Glue自动作业创建

我有可以在AWS GLUE中运行的pyspark脚本.但是每次我从UI创建作业并将代码复制到作业中时,无论如何,我都可以从s3存储桶中的文件中自动创建作业. (我拥有将在运行时使用的所有库和粘合上下文) 解决方案 另一种替代方法是使用 AWS CloudFormation .您可以在模板文件中定义要创建的所有AWS资源(不仅是Glue作业),然后根据需要从使用cli . 胶水作业的模 ..

AWS Glue Crawler无法解析大文件(分类为UNKNOWN)

我一直在尝试使用AWS Glue的搜寻器来尝试获取特定json文件的列和其他功能. 我已经通过将json文件转换为UTF-8并使用boto3将其移至s3容器并从搜寻器访问该容器的方式在本地解析了该文件. 我用自定义分类器$ [*]创建了一个json分类器,并使用常规设置创建了一个搜寻器. 当我使用相对较小(小于50 Kb)的文件执行此操作时,搜寻器会正确识别列以及主json中内部 ..

自动将数据从s3批量加载到Aurora MySQL RDS实例

我对AWS来说还比较陌生,所以我不确定该怎么做, 我在s3上具有CSV文件,并且已经在RDS上设置了Aurora实例.我无法弄清楚的是如何自动执行大容量数据加载,本质上就像使用AWS Glue之类的LOAD DATA FROM s3一样. 我也将s3的Glue原生对象用于RDS,但是从本质上讲,它是一堆通过JDBC连接插入RDS的插入,对于大型数据集来说,这也非常慢. 我可以在R ..
发布时间:2020-08-11 07:58:54 数据库

AWS Glue:如何使用各种模式处理嵌套JSON

目标: 我们希望使用AWS Glue数据目录为S3存储桶中的JSON数据创建一个表,然后通过Redshift查询和解析频谱。 背景: JSON数据来自DynamoDB Streams,并且深度嵌套。 JSON的第一级具有一致的元素集:密钥,NewImage,OldImage,SequenceNumber,近似CreationDateTime,SizeBytes和EventName。唯一的 ..

如何将数据从胶水移动到Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将Glue用作我们的初始ETL。当前,Glue支持JDBC和S3作为目标,但是我们的下游服务和组件将与dynamodb一起更好地工作。我们想知道什么是将记录从Glue移至Dynamo的最佳方法。 我们应该先写入S3,然后运行lambda将数据插入Dynamo吗?那是最佳实践吗?或 我们应该为Dynamodb使用第三方JDB ..
发布时间:2020-06-04 00:20:19 其他开发

存储在S3中的AWS Glue Crawlers和大型表

我对AWS Glue及其爬网程序有一些一般性问题。我将一些数据流放入S3存储桶,并使用AWS Athena将它们作为redshift中的外部表进行访问。 这些表按小时进行分区,一些自动爬网程序每小时更新一次分区和表结构。 问题在于,爬虫花费的时间越来越长,有一天它们会在不到一个小时的时间内完成。 是否有一些设置可以加快此过程,或者可以替代AWS Glue中的爬网程序? 解决方案 ..

EMR-Presto和Athena之间的查询结果差异

我已将Glue目录连接到Athena和一个EMR实例(已预先安装)。我尝试在两者上运行相同的查询,但结果不同。 EMR提供0行,但Athena提供43行。使用左联接, group by 和个不同的计数。查询看起来像这样: 选择 t1.customer_id作为id, t2.purchase_date作为Purchase_date , count(与t1.purchase_id的区别)为 ..
发布时间:2020-06-03 23:09:22 其他开发

AWS Glue + Athena跳过标题行

截至 1月19日, 2018年更新,雅典娜可以跳过文件的标题行, 支持忽略标题。定义表时,可以使用 skip.header.line.count 属性,以允许Athena忽略标题。 我使用 AWS Glue in Cloudformation 来管理我的Athena表。使用胶水表输入,如何告诉Athena跳过标题行? 解决方案 基于的完整模板AWS :: Glue :: Tab ..
发布时间:2020-06-03 23:09:18 其他开发

如何加快Amazon Athena查询的执行速度?

我正在使用Athena Query Execution从胶水表中检索数据。 爬虫每小时使用S3桶(由Kinesis Firehose不断更新)每小时更新一次此表。 我的Node.js服务器使用Athena执行基本查询。但是我意识到某些请求花费的时间太长,导致服务器抛出服务器请求超时。 我检查了Athena的查询历史记录,并看到了一些最新的请求。状态为已排队,表示它们正在等待执行。它们 ..

AWS Glue爬网程序无法提取CSV标头

我的智慧到此为止... 我有15条通过直线查询生成的csv文件,例如: 直线-u CONN_STR --outputformat = dsv -e“选择...”> data.csv 我选择 dsv 是因为字符串字段包含逗号,并且不加引号,这会进一步破坏胶水。此外,根据文档,内置的csv分类器可以处理管道(大部分情况下可以处理管道)。 无论如何,我将这15个c ..
发布时间:2020-06-03 23:08:18 其他开发

AWS Athena从GLUE爬网程序从S3输入csv创建的表中返回零记录

第一部分: 我尝试了胶搜寻器在s3中加载的虚拟csv上运行,它创建了一个表,但是当我尝试查看表时 但是在雅典娜的ELB演示数据工作正常。 第二部分(场景:) 假设我有一个excel文件以及该文件中数据存储方式和格式的数据字典,我希望将数据转储到AWS Redshift中?什么是实现此目的的最佳方法? 解决方案 我遇到了同样的问题。您需要为搜寻器提供文件夹路径而不是真 ..

通过AWS上的API在粘合表上添加分区?

我有一个S3存储桶,该存储桶不断填充新数据,我正在使用Athena和Glue查询该数据,问题是,如果胶水不知道创建了新分区,它就不会搜索它需要在那里搜索。如果我每次需要一个新分区时都要进行一次API调用来运行Glue搜寻器,那么这样做太昂贵了,因此最好的解决方案是告诉胶水添加了一个新分区,即在其属性表中创建一个新分区。我浏览了AWS文档,但没有走运,我将Java与AWS结合使用。有帮助吗? ..
发布时间:2020-06-03 23:07:53 其他开发

在胶水表(RDS)上运行AWS Athena查询时出现HIVE_UNKNOWN_ERROR

对从RDS数据库创建的Glue表运行Athena查询时出现错误: HIVE_UNKNOWN_ERROR:无法执行创建输入格式 表是使用搜寻器创建的。表格正确显示在Glue界面中: 但是,它们不会显示在数据库下的Athena界面中。它说:“所选数据库没有表” 使用使用S3文件创建的数据库时,我看不到此行为。也许这与错误有关。有人有想法吗? 解决方案 我遇到了同样的问题 ..
发布时间:2020-06-03 23:07:32 其他开发