amazon-emr 第8页 - IT屋-程序员软件开发技术分享社区

使用lambda函数通过火花步骤创建AWS EMR集群失败，并显示“本地文件不存在".

我正在尝试使用Lambda函数通过Spark步骤启动EMR集群. 这是我的lambda函数(python 2.7): import boto3 def lambda_handler(event, context): conn = boto3.client("emr") cluster_id = conn.run_job_flow( Na ..

发布时间：2020-08-23 02:28:15 amazon-web-services apache-spark aws-lambda amazon-emr 其他开发

如何访问Spark Streaming应用程序的统计信息终结点?

从Spark 2.2.0开始，API中提供了新的端点来获取有关流作业的信息. 我在集群模式下使用Spark 2.2.0在EMR集群上运行Spark. 当我点击流作业的端点时，所得到的只是错误消息: 没有附加到的流监听器我已经稍微研究了一下Spark代码库，但是该功能没有得到很好的记录.所以我很好奇这是否是一个错误?我需要做一些配置才能使此端点正常工作吗? ..

发布时间：2020-08-23 02:28:13 apache-spark spark-streaming amazon-emr 其他开发

列出EMR上的S3文件夹

我不明白如何在火花作业期间简单地在EMR上列出S3存储桶的内容. 我想做以下事情 Configuration conf = spark.sparkContext().hadoopConfiguration(); FileSystem s3 = S3FileSystem.get(conf); List list = toList(s3.listFiles( ..

发布时间：2020-08-23 02:28:06 amazon-web-services hadoop amazon-s3 amazon-emr 其他开发

在YARN群集中提交作业之前，Flink TaskManager不会启动

我正在使用Amazon EMR在YARN上运行Flink Cluster.我的设置包括用于1个主节点和2个核心节点的m4.large实例.我已经使用以下命令在YARN上启动了Flink CLuster. Flink作业管理器和应用程序管理器启动，但是没有任务管理器在运行. Flink Web界面为任务管理器，任务插槽和可用插槽显示0.但是，当我将作业提交给flink群集时，任务管理器将得到分 ..

发布时间：2020-08-23 02:27:00 yarn apache-flink amazon-emr 其他开发

将EMR配置为使用s3a而不是s3进行spark.sql调用

我对spark.sql(“")的所有调用均因以下堆栈跟踪(1)中的错误而失败更新-2 我已经解决了这个问题，它是sts:AssumeRule的AccessDenied，感谢任何潜在客户 User: arn:aws:sts::00000000000:assumed-role/EMR_EC2_XXXXX_XXXXXX_POLICY/i-3232131232131232 is not au ..

发布时间：2020-08-23 02:26:59 amazon-web-services apache-spark amazon-iam amazon-emr aws-iam 其他开发

AWS EMR引导操作为sudo

我需要为我的EMR群集(EMR AMI 4.3)中的所有实例更新/etc/hosts. 整个脚本不过是: #!/bin/bash echo -e 'ip1 uri1' >> /etc/hosts echo -e 'ip2 uri2' >> /etc/hosts ... 此脚本需要以sudo身份运行，否则将失败. 从此处: https://docs.aws.amazon.com ..

发布时间：2020-08-23 02:25:56 amazon-web-services hadoop sudo amazon-emr 其他开发

为什么我的Spark App仅在1个执行器上运行?

我对Spark还是很陌生，但是我已经能够创建Spark应用程序，我需要能够使用JDBC驱动程序从SQL Server中重新处理数据(我们正在删除昂贵的SP)，该应用程序加载了一些表通过JDBC从Sql Server中导入数据帧，然后我进行了几个连接，一个组和一个过滤器，最后通过JDBC将一些数据重新插入到另一个表中.所有这些操作在m3.xlarge上的Amazon Web Services中的Sp ..

发布时间：2020-08-23 02:24:51 apache-spark spark-dataframe amazon-emr 其他开发

如何在代码中的Amazon EMR引导操作上安装自定义包?

需要在Amazon EMR引导操作上安装一些软件包和二进制文件，但我找不到使用此软件包的任何示例. 基本上，我想安装python软件包，并指定每个hadoop节点以使用该软件包来处理s3存储桶中的项目，这是示例frpm boto. name='Image to grayscale using SimpleCV python package', ..

发布时间：2020-08-23 02:24:49 python boto amazon-emr Python

如何在EMR上为Spark/Zeppelin设置spark.driver.memory

当使用EMR(与Spark，Zeppelin)一起使用时，在Zeppelin Spark解释器设置中更改spark.driver.memory无效. 我想知道使用EMR Web界面(不是AWS CLI)创建集群时设置Spark驱动程序内存的最佳和最快方法是什么吗? Bootstrap动作可以解决吗? 如果是，请提供一个示例，说明引导操作文件的外观如何? 解决方案您始终可以尝试 ..

发布时间：2020-08-23 02:24:44 apache-spark emr amazon-emr apache-zeppelin 其他开发

避免在S3中使用hadoop(EMR)创建_ $ folder $键

我正在AWS数据管道中使用EMR活动.此EMR活动在EMR群集中运行配置单元脚本.它以dynamo DB作为输入并将数据存储在S3中. 这是EMR活动中使用的EMR步骤 s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hive-script,--run- ..

发布时间：2020-08-23 02:24:38 amazon-web-services hadoop amazon-s3 amazon-emr 其他开发

并行运行EMR的步骤

我正在 EMR集群上进行工作，我所面临的问题是全部触发的EMR作业正在逐步执行(队列中) 有什么办法可以让它们并行运行如果没有的话解决方案默认情况下，Elastic MapReduce的YARN设置非常面向“步骤"，带有单个CapacityScheduler队列，分配了100％的集群资源.由于采用了这种配置，因此每次将作业提交到EMR群集时，YARN都会最大限度地利用该 ..

发布时间：2020-08-23 02:24:29 web-services amazon-web-services apache-spark amazon-emr 其他开发

Emrfs与S3的文件同步不起作用

在Amazon EMR集群上运行Spark作业后，我直接从s3删除了输出文件，并尝试再次重新运行该作业.尝试使用sqlContext.write在s3上写入镶木地板文件格式时收到以下错误: 'bucket/folder' present in the metadata but not s3 at com.amazon.ws.emr.hadoop.fs.consistency.Consiste ..

发布时间：2020-08-23 02:24:24 amazon-s3 pyspark amazon-emr 其他开发

启动集群时在EMR上配置Zeppelin的Spark解释器

我正在EMR上创建集群，并配置Zeppelin从S3读取笔记本.为此，我使用了一个看起来像这样的json对象: [ { "Classification": "zeppelin-env", "Properties": { }, "Configurations": [ { "Classification": "export", ..

发布时间：2020-08-23 02:23:22 apache-spark emr amazon-emr apache-zeppelin 其他开发

Spark SQL失败，因为“常量池已超过JVM的0xFFFF限制".

我正在EMR 4.6.0 + Spark 1.6.1上运行此代码: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is n ..

发布时间：2020-08-23 02:23:18 java scala apache-spark amazon-emr Java开发

文件夹不会在Amazon S3上删除

我正在尝试删除由于MapReduce作业而创建的文件夹.存储桶中的其他文件也可以删除，但是不会删除该文件夹.当我尝试从控制台将其删除时，其状态旁边的进度栏将始终保持为0.已进行了多次尝试，包括两次注销/登录之间的操作. 解决方案首先， Amazon S3 实际上没有文件夹/目录的本地概念，而是一种仅由存储桶和对象/键组成的平面存储架构-大多数S3工具(包括因此，您的问题可能源于使用不同惯 ..

发布时间：2020-08-23 02:23:14 amazon-s3 amazon-web-services amazon-emr 其他开发

AWS EMR执行"bootstrap"操作群集中所有已运行的计算机上的脚本

我有一个运行24/7的EMR集群.我无法关闭它并启动新的. 我想做的是对已经运行的集群执行类似引导操作的操作，最好使用Python和boto或AWS CLI. 我可以想象分两个步骤进行操作: 1)在所有正在运行的实例上运行脚本(如果可以的话，例如从boto，那将是很好的选择) 2)将脚本添加到引导操作中，以防我想调整集群大小. 所以我的问题是:是否可以使用boto或至 ..

发布时间：2020-08-23 02:22:54 python amazon-web-services boto emr amazon-emr Python

无法在新的AWS EMR群集中获取SparkContext

我只是设置了一个AWS EMR集群(带有Spark 2.3.2的EMC版本5.18).我进入主机并运行spark-shell或pyspark并得到以下错误: $ spark-shell log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: /stderr (Permission denied) ..

发布时间：2020-08-23 02:22:49 amazon-web-services apache-spark pyspark amazon-emr 其他开发

我们是否可以将更多Amazon Elastic Mapreduce实例添加到现有Amazon Elastic Mapreduce实例中?

我是Amazon Services的新手，遇到了一些问题. 假设我正在Amazon Elastic Mapreduce上运行一些作业流，总共有3个实例.在执行工作流程时，我发现我的工作需要更多时间来执行.在这种情况下，我需要向其中添加更多实例，以使我的实例增加，从而使作业快速执行. 我的问题是如何将这样的实例添加到现有实例中?因为如果我们终止存在的实例并再次创建具有更多数量的新实例会很 ..

发布时间：2020-08-23 02:21:46 amazon-emr 其他开发

更改conf设置后如何在EMR中重新启动Spark服务?

我正在使用EMR-5.9.0，更改某些配置文件后，我想重新启动服务以查看效果.我该如何实现? 我尝试使用initctl列表查找服务的名称，正如我在其他答案中看到的那样，但是没有运气... 解决方案由于Spark在Hadoop Yarn上作为应用程序运行，因此您可以尝试 sudo stop hadoop-yarn-resourcemanager sudo start h ..

发布时间：2020-08-23 02:21:44 apache-spark emr amazon-emr 其他开发

提高spark.yarn.executor.memoryOverhead

我正在尝试在EMR上运行(py)Spark作业，该作业将处理大量数据.目前，我的工作失败，并显示以下错误消息: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 GB physical memory used. Consider boosting spark.yarn.executor.me ..

发布时间：2020-08-23 02:20:41 amazon-web-services apache-spark pyspark emr amazon-emr 其他开发

amazon-emr相关内容