amazon-emr相关内容

如何访问Spark Streaming应用程序的统计信息终结点?

从Spark 2.2.0开始,API中提供了新的端点来获取有关流作业的信息. 我在集群模式下使用Spark 2.2.0在EMR集群上运行Spark. 当我点击流作业的端点时,所得到的只是错误消息: 没有附加到 的流监听器 我已经稍微研究了一下Spark代码库,但是该功能没有得到很好的记录.所以我很好奇这是否是一个错误?我需要做一些配置才能使此端点正常工作吗? ..
发布时间:2020-08-23 02:28:13 其他开发

在YARN群集中提交作业之前,Flink TaskManager不会启动

我正在使用Amazon EMR在YARN上运行Flink Cluster.我的设置包括用于1个主节点和2个核心节点的m4.large实例.我已经使用以下命令在YARN上启动了Flink CLuster. Flink作业管理器和应用程序管理器启动,但是没有任务管理器在运行. Flink Web界面为任务管理器,任务插槽和可用插槽显示0.但是,当我将作业提交给flink群集时,任务管理器将得到分 ..
发布时间:2020-08-23 02:27:00 其他开发

AWS EMR引导操作为sudo

我需要为我的EMR群集(EMR AMI 4.3)中的所有实例更新/etc/hosts. 整个脚本不过是: #!/bin/bash echo -e 'ip1 uri1' >> /etc/hosts echo -e 'ip2 uri2' >> /etc/hosts ... 此脚本需要以sudo身份运行,否则将失败. 从此处: https://docs.aws.amazon.com ..
发布时间:2020-08-23 02:25:56 其他开发

为什么我的Spark App仅在1个执行器上运行?

我对Spark还是很陌生,但是我已经能够创建Spark应用程序,我需要能够使用JDBC驱动程序从SQL Server中重新处理数据(我们正在删除昂贵的SP),该应用程序加载了一些表通过JDBC从Sql Server中导入数据帧,然后我进行了几个连接,一个组和一个过滤器,最后通过JDBC将一些数据重新插入到另一个表中.所有这些操作在m3.xlarge上的Amazon Web Services中的Sp ..
发布时间:2020-08-23 02:24:51 其他开发

如何在代码中的Amazon EMR引导操作上安装自定义包?

需要在Amazon EMR引导操作上安装一些软件包和二进制文件,但我找不到使用此软件包的任何示例. 基本上,我想安装python软件包,并指定每个hadoop节点以使用该软件包来处理s3存储桶中的项目,这是示例frpm boto. name='Image to grayscale using SimpleCV python package', ..
发布时间:2020-08-23 02:24:49 Python

如何在EMR上为Spark/Zeppelin设置spark.driver.memory

当使用EMR(与Spark,Zeppelin)一起使用时,在Zeppelin Spark解释器设置中更改spark.driver.memory无效. 我想知道使用EMR Web界面(不是AWS CLI)创建集群时设置Spark驱动程序内存的最佳和最快方法是什么吗? Bootstrap动作可以解决吗? 如果是,请提供一个示例,说明引导操作文件的外观如何? 解决方案 您始终可以尝试 ..
发布时间:2020-08-23 02:24:44 其他开发

并行运行EMR的步骤

我正在 EMR集群上进行工作,我所面临的问题是全部 触发的EMR作业正在逐步执行(队列中) 有什么办法可以让它们并行运行 如果没有的话 解决方案 默认情况下,Elastic MapReduce的YARN设置非常面向“步骤",带有单个CapacityScheduler队列,分配了100%的集群资源.由于采用了这种配置,因此每次将作业提交到EMR群集时,YARN都会最大限度地利用该 ..

Emrfs与S3的文件同步不起作用

在Amazon EMR集群上运行Spark作业后,我直接从s3删除了输出文件,并尝试再次重新运行该作业.尝试使用sqlContext.write在s3上写入镶木地板文件格式时收到以下错误: 'bucket/folder' present in the metadata but not s3 at com.amazon.ws.emr.hadoop.fs.consistency.Consiste ..
发布时间:2020-08-23 02:24:24 其他开发

文件夹不会在Amazon S3上删除

我正在尝试删除由于MapReduce作业而创建的文件夹.存储桶中的其他文件也可以删除,但是不会删除该文件夹.当我尝试从控制台将其删除时,其状态旁边的进度栏将始终保持为0.已进行了多次尝试,包括两次注销/登录之间的操作. 解决方案 首先, Amazon S3 实际上没有文件夹/目录的本地概念,而是一种仅由存储桶和对象/键组成的平面存储架构-大多数S3工具(包括因此,您的问题可能源于使用不同惯 ..
发布时间:2020-08-23 02:23:14 其他开发

AWS EMR执行"bootstrap"操作群集中所有已运行的计算机上的脚本

我有一个运行24/7的EMR集群.我无法关闭它并启动新的. 我想做的是对已经运行的集群执行类似引导操作的操作,最好使用Python和boto或AWS CLI. 我可以想象分两个步骤进行操作: 1)在所有正在运行的实例上运行脚本(如果可以的话,例如从boto,那将是很好的选择) 2)将脚本添加到引导操作中,以防我想调整集群大小. 所以我的问题是:是否可以使用boto或至 ..
发布时间:2020-08-23 02:22:54 Python

我们是否可以将更多Amazon Elastic Mapreduce实例添加到现有Amazon Elastic Mapreduce实例中?

我是Amazon Services的新手,遇到了一些问题. 假设我正在Amazon Elastic Mapreduce上运行一些作业流,总共有3个实例.在执行工作流程时,我发现我的工作需要更多时间来执行.在这种情况下,我需要向其中添加更多实例,以使我的实例增加,从而使作业快速执行. 我的问题是如何将这样的实例添加到现有实例中?因为如果我们终止存在的实例并再次创建具有更多数量的新实例会很 ..
发布时间:2020-08-23 02:21:46 其他开发

更改conf设置后如何在EMR中重新启动Spark服务?

我正在使用EMR-5.9.0,更改某些配置文件后,我想重新启动服务以查看效果.我该如何实现? 我尝试使用initctl列表查找服务的名称,正如我在其他答案中看到的那样,但是没有运气... 解决方案 由于Spark在Hadoop Yarn上作为应用程序运行,因此您可以尝试 sudo stop hadoop-yarn-resourcemanager sudo start h ..
发布时间:2020-08-23 02:21:44 其他开发