aws-glue 第10页 - IT屋-程序员软件开发技术分享社区

从S3移动数据->使用AWS Glue的RDS

AWS Glue是否提供将数据从S3存储桶移动到RDS数据库的功能? 我正在尝试设置无服务器应用程序，该应用程序将提取上传到S3的动态数据并将其迁移到RDS. Glue提供了用于确定架构的Crawlers服务. Glue还提供ETL作业，但这似乎是目标源只是另一个S3存储桶的地方. 有什么想法吗? 解决方案是的，Glue可以发送到RDS数据存储.如果您使用作业向导 ..

发布时间：2020-08-23 03:18:18 amazon-web-services amazon-s3 amazon-rds aws-glue 其他开发

Firehose JSON-> S3实木复合地板-> ETL Spark，错误:无法推断Parquet的架构

这似乎很容易，就像这是这套功能的核心用例一样，但这是一个又一个问题. 最新的方法是尝试通过Glue Dev端点(PySpark和Scala端点)运行命令. 按照此处的说明进行操作: https://docs.aws.amazon.com/glue/latest/dg/dev-endpoint-tutorial-repl.html import sys from pyspark.c ..

发布时间：2020-08-23 03:06:49 apache-spark pyspark parquet amazon-kinesis aws-glue 其他开发

从EMR迁移到AWS Glue后在Spark SQL中找不到表

我在EMR上有Spark作业，并且将EMR配置为对Hive和Spark元数据使用Glue目录. 我创建了Hive外部表，它们出现在Glue目录中，我的Spark作业可以在Spark SQL中像spark.sql("select * from hive_table ...") 一样引用它们. 现在，当我尝试在Glue作业中运行相同的代码时，它将失败，并显示“找不到表"错误.看来Glue作业 ..

发布时间：2020-08-23 02:33:15 apache-spark amazon-emr aws-glue 其他开发

带AWS Glue的Spark Catalog:找不到数据库

我已经使用“胶水数据"目录创建了一个EMR集群.调用spark-shell时，我可以通过成功列出存储在Glue数据库中的表 spark.catalog.setCurrentDatabase("test") spark.catalog.listTables 但是，当我通过spark-submit提交工作时，出现致命错误 ERROR ApplicationMaster: User cl ..

发布时间：2020-08-23 02:31:44 apache-spark amazon-emr aws-glue 其他开发

针对AWS EMR的AWS Glue定价

我正在对AWS Glue与AWS EMR之间的价格进行比较，以便在EMR和胶水. 我考虑了6个DPU(4个vCPU + 16 GB内存)，其中ETL Job运行了10分钟，持续了30天.假设预期的搜寻器请求比免费套餐高出100万，则每增加一百万个请求，其爬虫的计算费用为1美元. 在EMR上，我同时考虑了EC2和&具有6个节点的EMR(分别定价为$ 0.266和$ 0.070)，运行10 ..

发布时间：2020-08-23 02:10:36 amazon-web-services amazon-emr aws-glue 其他开发

AWS Glue自动作业创建

我有可以在AWS GLUE中运行的pyspark脚本.但是每次我从UI创建作业并将代码复制到作业中时，无论如何，我都可以从s3存储桶中的文件中自动创建作业. (我拥有将在运行时使用的所有库和粘合上下文) 解决方案另一种替代方法是使用 AWS CloudFormation .您可以在模板文件中定义要创建的所有AWS资源(不仅是Glue作业)，然后根据需要从使用cli . 胶水作业的模 ..

发布时间：2020-08-22 23:59:34 amazon-web-services amazon-ec2 pyspark aws-glue aws-glue-data-catalog 其他开发

AWS Glue Crawler无法解析大文件(分类为UNKNOWN)

我一直在尝试使用AWS Glue的搜寻器来尝试获取特定json文件的列和其他功能. 我已经通过将json文件转换为UTF-8并使用boto3将其移至s3容器并从搜寻器访问该容器的方式在本地解析了该文件. 我用自定义分类器$ [*]创建了一个json分类器，并使用常规设置创建了一个搜寻器. 当我使用相对较小(小于50 Kb)的文件执行此操作时，搜寻器会正确识别列以及主json中内部 ..

发布时间：2020-08-22 21:55:50 json amazon-web-services amazon-s3 aws-glue amazon-athena 其他开发

自动将数据从s3批量加载到Aurora MySQL RDS实例

我对AWS来说还比较陌生，所以我不确定该怎么做，我在s3上具有CSV文件，并且已经在RDS上设置了Aurora实例.我无法弄清楚的是如何自动执行大容量数据加载，本质上就像使用AWS Glue之类的LOAD DATA FROM s3一样. 我也将s3的Glue原生对象用于RDS，但是从本质上讲，它是一堆通过JDBC连接插入RDS的插入，对于大型数据集来说，这也非常慢. 我可以在R ..

发布时间：2020-08-11 07:58:54 python mysql amazon-web-services amazon-s3 aws-glue 数据库

由于无法读取hadoop用户`File'/var/aws/emr/userData.json'，将ssh插入到粘合dev-endpoint中

基本上，我在此问题="https://docs.aws.amazon.com/glue/latest/dg/dev-endpoint-tutorial-pycharm.html" rel ="nofollow noreferrer">此教程. java.io.IOException: File '/var/aws/emr/userData.json' cannot be read 以上文 ..

发布时间：2020-06-13 19:19:10 amazon-web-services hadoop etl aws-glue endpoint 其他开发

AWS Glue：如何使用各种模式处理嵌套JSON

目标：我们希望使用AWS Glue数据目录为S3存储桶中的JSON数据创建一个表，然后通过Redshift查询和解析频谱。背景： JSON数据来自DynamoDB Streams，并且深度嵌套。 JSON的第一级具有一致的元素集：密钥，NewImage，OldImage，SequenceNumber，近似CreationDateTime，SizeBytes和EventName。唯一的 ..

发布时间：2020-06-05 18:30:49 amazon-redshift aws-glue amazon-dynamodb-streams amazon-redshift-spectrum 其他开发

如何将数据从胶水移动到Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案，并认真考虑将Glue用作我们的初始ETL。当前，Glue支持JDBC和S3作为目标，但是我们的下游服务和组件将与dynamodb一起更好地工作。我们想知道什么是将记录从Glue移至Dynamo的最佳方法。我们应该先写入S3，然后运行lambda将数据插入Dynamo吗？那是最佳实践吗？或我们应该为Dynamodb使用第三方JDB ..

发布时间：2020-06-04 00:20:19 amazon-s3 amazon-dynamodb etl aws-glue 其他开发

存储在S3中的AWS Glue Crawlers和大型表

我对AWS Glue及其爬网程序有一些一般性问题。我将一些数据流放入S3存储桶，并使用AWS Athena将它们作为redshift中的外部表进行访问。这些表按小时进行分区，一些自动爬网程序每小时更新一次分区和表结构。问题在于，爬虫花费的时间越来越长，有一天它们会在不到一个小时的时间内完成。是否有一些设置可以加快此过程，或者可以替代AWS Glue中的爬网程序？解决方案 ..

发布时间：2020-06-03 23:09:27 amazon-web-services amazon-s3 amazon-redshift amazon-athena aws-glue 其他开发

EMR-Presto和Athena之间的查询结果差异

我已将Glue目录连接到Athena和一个EMR实例（已预先安装）。我尝试在两者上运行相同的查询，但结果不同。 EMR提供0行，但Athena提供43行。使用左联接， group by 和个不同的计数。查询看起来像这样：选择 t1.customer_id作为id， t2.purchase_date作为Purchase_date ， count（与t1.purchase_id的区别）为 ..

发布时间：2020-06-03 23:09:22 amazon-emr amazon-athena presto aws-glue 其他开发

AWS Glue + Athena跳过标题行

截至 1月19日， 2018年更新，雅典娜可以跳过文件的标题行，支持忽略标题。定义表时，可以使用 skip.header.line.count 属性，以允许Athena忽略标题。我使用 AWS Glue in Cloudformation 来管理我的Athena表。使用胶水表输入，如何告诉Athena跳过标题行？解决方案基于的完整模板AWS :: Glue :: Tab ..

发布时间：2020-06-03 23:09:18 amazon-cloudformation amazon-athena aws-glue 其他开发

如何加快Amazon Athena查询的执行速度？

我正在使用Athena Query Execution从胶水表中检索数据。爬虫每小时使用S3桶（由Kinesis Firehose不断更新）每小时更新一次此表。我的Node.js服务器使用Athena执行基本查询。但是我意识到某些请求花费的时间太长，导致服务器抛出服务器请求超时。我检查了Athena的查询历史记录，并看到了一些最新的请求。状态为已排队，表示它们正在等待执行。它们 ..

发布时间：2020-06-03 23:08:20 performance amazon-web-services aws-glue amazon-athena 其他开发

AWS Glue爬网程序无法提取CSV标头

我的智慧到此为止... 我有15条通过直线查询生成的csv文件，例如：直线-u CONN_STR --outputformat = dsv -e“选择...”> data.csv 我选择 dsv 是因为字符串字段包含逗号，并且不加引号，这会进一步破坏胶水。此外，根据文档，内置的csv分类器可以处理管道（大部分情况下可以处理管道）。无论如何，我将这15个c ..

发布时间：2020-06-03 23:08:18 csv amazon-athena aws-glue 其他开发

如何解决此HIVE_PARTITION_SCHEMA_MISMATCH？

我在S3上的CSV文件中对数据进行了分区： s3：//bucket/dataset/p=1/*.csv （分区＃1） ... s3：//bucket/dataset/p=100/*.csv（分区＃100）我在s3：// bucket / dataset /上运行了一个分类器，由于它检测到150列（c1 ，...，c150）并分配各种数据类型。在雅典娜中加载结果表并进行查询 ..

发布时间：2020-06-03 23:08:04 amazon-athena aws-glue aws-glue-data-catalog 其他开发

AWS Athena从GLUE爬网程序从S3输入csv创建的表中返回零记录

第一部分：我尝试了胶搜寻器在s3中加载的虚拟csv上运行，它创建了一个表，但是当我尝试查看表时但是在雅典娜的ELB演示数据工作正常。第二部分（场景：）假设我有一个excel文件以及该文件中数据存储方式和格式的数据字典，我希望将数据转储到AWS Redshift中？什么是实现此目的的最佳方法？解决方案我遇到了同样的问题。您需要为搜寻器提供文件夹路径而不是真 ..

发布时间：2020-06-03 23:07:59 amazon-web-services csv amazon-redshift amazon-athena aws-glue 其他开发

通过AWS上的API在粘合表上添加分区？

我有一个S3存储桶，该存储桶不断填充新数据，我正在使用Athena和Glue查询该数据，问题是，如果胶水不知道创建了新分区，它就不会搜索它需要在那里搜索。如果我每次需要一个新分区时都要进行一次API调用来运行Glue搜寻器，那么这样做太昂贵了，因此最好的解决方案是告诉胶水添加了一个新分区，即在其属性表中创建一个新分区。我浏览了AWS文档，但没有走运，我将Java与AWS结合使用。有帮助吗？ ..

发布时间：2020-06-03 23:07:53 amazon-web-services amazon-s3 amazon-athena aws-glue 其他开发

在胶水表（RDS）上运行AWS Athena查询时出现HIVE_UNKNOWN_ERROR

对从RDS数据库创建的Glue表运行Athena查询时出现错误： HIVE_UNKNOWN_ERROR：无法执行创建输入格式表是使用搜寻器创建的。表格正确显示在Glue界面中：但是，它们不会显示在数据库下的Athena界面中。它说：“所选数据库没有表” 使用使用S3文件创建的数据库时，我看不到此行为。也许这与错误有关。有人有想法吗？解决方案我遇到了同样的问题 ..

发布时间：2020-06-03 23:07:32 amazon-web-services amazon-athena aws-glue 其他开发

aws-glue相关内容