amazon-emr相关内容

通过Spark将中间处理的数据复制到目标S3时,AWS EMR性能问题

当前,我正在使用AWS EMR进行数据处理.S3被用作着陆区和最终处理的数据.来自S3的最终处理数据已加载到Redshift中,以供客户运行分析. 每天我会收到100个包含小KB和MB(最大2-3MB)的小文件.一旦源文件在着陆区中可用,则根据SLA,数据需要在15分钟内以Redshift形式存在.“订单"表的“最终存储区"为800GB. 实现了SCD Type 1 pySpar ..
发布时间:2021-05-04 19:11:11 其他开发

将EMR日志发送到CloudWatch

是否可以将EMR日志发送到CloudWatch而不是S3.我们希望我们所有的服务日志都集中在一个位置.似乎您唯一能做的就是设置警报进行监视,但这不包括日志记录. https://docs.aws.amazon.com/emr/Latest/ManagementGuide/UsingEMR_ViewingMetrics.html 我是否必须在集群中的节点上安装CloudWatch代理 h ..

RDS到S3-数据转换AWS

我的RDS postgres/oracle中有大约30个表(尚未确定是oracle还是postgres)实例.我想获取最近4个小时内已插入/更新的所有记录(可配置),创建一个与每个表有关的csv文件,并将这些文件存储在S3中.我希望整个过程都是事务性的.如果从一个表中获取数据时出现任何错误,我不希望将与其他29个表相关的数据保留在S3中.数据不是很大,在4小时内,每个表中的记录数量应在100条以下 ..

转换KMeans的“中心"输出到PySpark数据框

我正在运行K均值聚类模型,我想分析聚类质心,但是中心输出是我的20个质心的列表,其坐标(每个8个)为ARRAY.我需要它作为一个数据帧,将簇1:20作为行,并将它们的属性值(质心坐标)作为列,如下所示: c1 |0.85 |0.03 |0.01 |0.00 |0.12 |0.01 |0.00 |0.12c2 |0.25 |0.80 |0.10 |0.00 |0.12 |0.01 |0.00 | ..
发布时间:2021-04-03 19:11:11 其他开发

AWS EMR Presto群集突然终止错误:由于竞价,作业流中的所有从服务器均已终止

我在使用AWS EMR PrestoDB时遇到麻烦.我启动了一个集群,其中主节点为协调器,核心节点为工作器.核心节点是竞价型实例.但是,主节点是按需的.群集启动5周后,我收到了此错误消息 由于错误而终止作业流中的所有从属都由于Spot而终止 是否所有终端都被终止会使集群本身终止?我看到了现货定价历史,但没有达到我设定的最高价格. 我已经做了什么?我检查了转储到s3的日志.我没有找到有关 ..
发布时间:2021-04-03 19:11:09 其他开发

在AWS上,每天运行一次AWS CLI命令

我有一个AWS CLI调用(在这种情况下,要启动配置的EMR集群以执行一些步骤然后关闭),但是我不确定如何每天运行它. 我想做到这一点的一种方法是运行cron作业的EC2微型实例,或启动该命令的微型计算机中的ECS任务,但似乎一切都太过分了.看来在Lambda中也可以做到这一点,但从我所知道的来看,这很笨拙. 这不一定是一个好的长期解决方案,只有在我能正确执行之前(数据管道),一些合适 ..
发布时间:2021-04-03 19:10:59 其他开发

不触发此类字段METASTORE_CLIENT_FACTORY_CLASS

我正在尝试使用Java中的spark查询配置单元表.我的配置单元表位于EMR群集5.12中.Spark版本是2.2.1和Hive 2.3.2. 当我进入机器并连接到spark-shell时,我可以毫无问题地查询配置单元表. 但是当我尝试使用自定义jar进行查询时,出现以下异常: java.lang.IllegalArgumentException:实例化"org.apache.sp ..
发布时间:2021-04-03 19:10:56 其他开发

如何更改在AWS数据管道中运行的Hive Activity的内存设置?

使用 AWS Data Pipeline 运行一个 Hive Activity 时,我的Hive活动失败,并出现以下错误: 诊断:容器[pid =,containerID =]运行超出了物理内存限制.当前使用情况:已使用1 GB物理内存中的1.0 GB;使用2.8 GB的5 GB虚拟内存.杀死容器. 当我运行由Hive Activity手动执行的Hive脚本时,我必须按如下所示执行它: 配 ..

PySpark UDF优化挑战

我正在尝试优化以下代码.使用1000行数据运行时,大约需要12分钟才能完成.我们的用例要求数据大小在25K-50K行左右,这将使该实现完全不可行. 导入pyspark.sql.types作为类型导入numpy进口假货从pyspark.sql.functions导入udfinputPath ="s3://myData/part-*.parquet";df = spark.read.parquet( ..
发布时间:2021-04-03 19:10:48 其他开发

AWS-教育帐户无法创建集群,EC2权限不足

我的教育AWS账户无法创建集群.它给了我这样的错误 核心-2:服务角色EMR_DefaultRole没有足够的EC2权限. 我已经搜索了AWS支持中心和网络,几乎找不到任何解决方案. 我已经尝试联系AWS专家团队,但是不知何故我无法联系他们. 当我尝试创建具有4个r5.xlarge内核的PySpark EMR时遇到此错误.如果核心数减少到2,并且类型更改为m5.2xlarge, ..
发布时间:2021-04-03 19:10:44 其他开发

Amazon Emr-当我们拥有核心节点时,任务节点有什么需求?

我最近正在学习有关Amazon EMR的知识,据我所知,EMR集群使我们可以选择3个节点. 主服务器,用于运行主要的Hadoop守护进程,如NameNode,Job Tracker和资源管理器. 运行Datanode和Tasktracker守护程序的核心. 仅运行TaskTracker的任务. 我对你们的问题是,为什么EMR提供了任务节点?如hadoop建议的那样,我们应该在同一节 ..
发布时间:2021-04-03 19:10:33 其他开发

在安装了核心服务(Spark等)之后,是否可以设置引导操作以在EMR上运行?

在安装了核心服务(Spark等)之后,是否可以设置引导操作以在EMR上运行?我正在使用emr-5.27.0. 解决方案 您可以提交某些脚本作为 step ,而不是引导程序.例如,我制作了一个SSL证书更新脚本,并将其一步一步地应用于EMR.这是我用Python语言编写的lambda函数的一部分.但是您可以通过在控制台或其他语言上手动添加此步骤. Steps = [{'名称':'Pres ..
发布时间:2021-04-03 19:10:25 其他开发

Spark 2.2.0-如何向DynamoDB写入/读取DataFrame

我希望我的Spark应用程序从DynamoDB中读取一个表,进行处理,然后将结果写入DynamoDB中. 将表读入DataFrame 现在,我可以将表作为 hadoopRDD 从DynamoDB读取到Spark中,并将其转换为DataFrame.但是,我必须使用正则表达式从 AttributeValue 中提取值.有没有更好/更优雅的方式?在AWS API中找不到任何内容. 包mai ..
发布时间:2021-04-03 18:50:33 其他开发