amazon-emr相关内容
我正在尝试使用Lambda函数通过Spark步骤启动EMR集群. 这是我的lambda函数(python 2.7): import boto3 def lambda_handler(event, context): conn = boto3.client("emr") cluster_id = conn.run_job_flow( Na
..
从Spark 2.2.0开始,API中提供了新的端点来获取有关流作业的信息. 我在集群模式下使用Spark 2.2.0在EMR集群上运行Spark. 当我点击流作业的端点时,所得到的只是错误消息: 没有附加到 的流监听器 我已经稍微研究了一下Spark代码库,但是该功能没有得到很好的记录.所以我很好奇这是否是一个错误?我需要做一些配置才能使此端点正常工作吗?
..
我不明白如何在火花作业期间简单地在EMR上列出S3存储桶的内容. 我想做以下事情 Configuration conf = spark.sparkContext().hadoopConfiguration(); FileSystem s3 = S3FileSystem.get(conf); List list = toList(s3.listFiles(
..
我正在使用Amazon EMR在YARN上运行Flink Cluster.我的设置包括用于1个主节点和2个核心节点的m4.large实例.我已经使用以下命令在YARN上启动了Flink CLuster. Flink作业管理器和应用程序管理器启动,但是没有任务管理器在运行. Flink Web界面为任务管理器,任务插槽和可用插槽显示0.但是,当我将作业提交给flink群集时,任务管理器将得到分
..
我对spark.sql(“")的所有调用均因以下堆栈跟踪(1)中的错误而失败 更新-2 我已经解决了这个问题,它是sts:AssumeRule的AccessDenied,感谢任何潜在客户 User: arn:aws:sts::00000000000:assumed-role/EMR_EC2_XXXXX_XXXXXX_POLICY/i-3232131232131232 is not au
..
我需要为我的EMR群集(EMR AMI 4.3)中的所有实例更新/etc/hosts. 整个脚本不过是: #!/bin/bash echo -e 'ip1 uri1' >> /etc/hosts echo -e 'ip2 uri2' >> /etc/hosts ... 此脚本需要以sudo身份运行,否则将失败. 从此处: https://docs.aws.amazon.com
..
我对Spark还是很陌生,但是我已经能够创建Spark应用程序,我需要能够使用JDBC驱动程序从SQL Server中重新处理数据(我们正在删除昂贵的SP),该应用程序加载了一些表通过JDBC从Sql Server中导入数据帧,然后我进行了几个连接,一个组和一个过滤器,最后通过JDBC将一些数据重新插入到另一个表中.所有这些操作在m3.xlarge上的Amazon Web Services中的Sp
..
需要在Amazon EMR引导操作上安装一些软件包和二进制文件,但我找不到使用此软件包的任何示例. 基本上,我想安装python软件包,并指定每个hadoop节点以使用该软件包来处理s3存储桶中的项目,这是示例frpm boto. name='Image to grayscale using SimpleCV python package',
..
当使用EMR(与Spark,Zeppelin)一起使用时,在Zeppelin Spark解释器设置中更改spark.driver.memory无效. 我想知道使用EMR Web界面(不是AWS CLI)创建集群时设置Spark驱动程序内存的最佳和最快方法是什么吗? Bootstrap动作可以解决吗? 如果是,请提供一个示例,说明引导操作文件的外观如何? 解决方案 您始终可以尝试
..
我正在AWS数据管道中使用EMR活动.此EMR活动在EMR群集中运行配置单元脚本.它以dynamo DB作为输入并将数据存储在S3中. 这是EMR活动中使用的EMR步骤 s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hive-script,--run-
..
我正在 EMR集群上进行工作,我所面临的问题是全部 触发的EMR作业正在逐步执行(队列中) 有什么办法可以让它们并行运行 如果没有的话 解决方案 默认情况下,Elastic MapReduce的YARN设置非常面向“步骤",带有单个CapacityScheduler队列,分配了100%的集群资源.由于采用了这种配置,因此每次将作业提交到EMR群集时,YARN都会最大限度地利用该
..
在Amazon EMR集群上运行Spark作业后,我直接从s3删除了输出文件,并尝试再次重新运行该作业.尝试使用sqlContext.write在s3上写入镶木地板文件格式时收到以下错误: 'bucket/folder' present in the metadata but not s3 at com.amazon.ws.emr.hadoop.fs.consistency.Consiste
..
我正在EMR上创建集群,并配置Zeppelin从S3读取笔记本.为此,我使用了一个看起来像这样的json对象: [ { "Classification": "zeppelin-env", "Properties": { }, "Configurations": [ { "Classification": "export",
..
我正在EMR 4.6.0 + Spark 1.6.1上运行此代码: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is n
..
我正在尝试删除由于MapReduce作业而创建的文件夹.存储桶中的其他文件也可以删除,但是不会删除该文件夹.当我尝试从控制台将其删除时,其状态旁边的进度栏将始终保持为0.已进行了多次尝试,包括两次注销/登录之间的操作. 解决方案 首先, Amazon S3 实际上没有文件夹/目录的本地概念,而是一种仅由存储桶和对象/键组成的平面存储架构-大多数S3工具(包括因此,您的问题可能源于使用不同惯
..
我有一个运行24/7的EMR集群.我无法关闭它并启动新的. 我想做的是对已经运行的集群执行类似引导操作的操作,最好使用Python和boto或AWS CLI. 我可以想象分两个步骤进行操作: 1)在所有正在运行的实例上运行脚本(如果可以的话,例如从boto,那将是很好的选择) 2)将脚本添加到引导操作中,以防我想调整集群大小. 所以我的问题是:是否可以使用boto或至
..
我只是设置了一个AWS EMR集群(带有Spark 2.3.2的EMC版本5.18).我进入主机并运行spark-shell或pyspark并得到以下错误: $ spark-shell log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: /stderr (Permission denied)
..
我是Amazon Services的新手,遇到了一些问题. 假设我正在Amazon Elastic Mapreduce上运行一些作业流,总共有3个实例.在执行工作流程时,我发现我的工作需要更多时间来执行.在这种情况下,我需要向其中添加更多实例,以使我的实例增加,从而使作业快速执行. 我的问题是如何将这样的实例添加到现有实例中?因为如果我们终止存在的实例并再次创建具有更多数量的新实例会很
..
我正在使用EMR-5.9.0,更改某些配置文件后,我想重新启动服务以查看效果.我该如何实现? 我尝试使用initctl列表查找服务的名称,正如我在其他答案中看到的那样,但是没有运气... 解决方案 由于Spark在Hadoop Yarn上作为应用程序运行,因此您可以尝试 sudo stop hadoop-yarn-resourcemanager sudo start h
..
我正在尝试在EMR上运行(py)Spark作业,该作业将处理大量数据.目前,我的工作失败,并显示以下错误消息: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 GB physical memory used. Consider boosting spark.yarn.executor.me
..