emr 第6页 - IT屋-程序员软件开发技术分享社区

AWS EMR上的YARN日志聚合 - UnsupportedFileSystemException

我努力为我的Amazon EMR群集启用YARN日志聚合。我正在关注这个配置文件： http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-debugging.html#emr-plan-debugging-logs-归档在标题为“使用AWS CLI在Amazon S3中汇总日志”的部分下。 ..

发布时间：2018-05-31 19:20:20 hadoop yarn emr amazon-emr hadoop2 分布式计算/Hadoop

hive版本0.13.1中的性能问题

我使用 AWS-EMR 运行我的Hive查询，而我在运行hive版本0.13.1时遇到性能问题。更新版本的配置单元需要大约5分钟来运行10行数据。但230804行的相同脚本需要2天，并且仍在运行。我应该怎么做才能分析和解决问题？示例数据：表1： hive>描述foo; 确定 orderno字符串所用时间：0.101秒，提取：1行 ta ..

发布时间：2018-05-31 19:19:22 hadoop amazon-web-services hive emr ami 分布式计算/Hadoop

Autoscaling EMR是否需要？我应该只使用EC2吗？我应该只使用Qubole吗？

为了减少配置时间，我们决定继续使用5个实例的专用EMR集群（我们预计需要大约5个实例）。如果我们需要更多，我们认为我们需要实现某种自动缩放。我对EMR并不熟悉，它支持自动缩放吗？我在文档中找到了这个： http：// docs。 aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-resize.html 这 ..

发布时间：2018-05-31 19:13:02 hadoop amazon-web-services emr autoscaling qubole 分布式计算/Hadoop

在aws中终止一个spark步骤

我想在EMR火花集群上设置一系列火花步骤，如果时间过长，则终止当前步骤。但是，当我进入主节点并运行hadoop jobs -list时，主节点似乎认为没有作业正在运行。我不想终止集群，因为这样做会迫使我购买我正在运行的任何集群的全新小时。任何人都可以帮助我终止EMR中的spark-step而不终止整个集群吗？这很简单： yarn application -kill [applicatio ..

发布时间：2018-05-31 19:11:21 hadoop amazon-web-services apache-spark emr 分布式计算/Hadoop

如何指定映射配置&使用Amazon的EMR在CLI中使用定制jar的java选项？

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置，例如 mapred.task.timeout，mapred.min.split.size 等。使用外部脚本语言（如ruby或python）运行时，我们可以使用以下方法来指定这些配置： ruby elastic-mapreduce -j --stream --step-name“mystream”--jobcon ..

发布时间：2018-05-31 19:09:03 java hadoop mapreduce elastic-map-reduce emr Java开发

如何在AWS EMR上重新启动纱线

我正在使用Hadoop 2.6.0（ emr-4.2.0 图片）。我在 yarn-site.xml 中做了一些修改，并希望重新启动纱线以使更改生效。有没有一个命令使用我可以做到这一点？解决方案编辑（10/26/2017 ）：有关如何执行此操作的更详细的知识中心文章已由AWS正式发布在此处 - https://aws.amazon.com/premiumsupport/know ..

发布时间：2018-05-31 19:07:18 hadoop yarn emr 分布式计算/Hadoop

如何在EMR中设置自定义环境变量以供Spark应用程序使用

在运行Spark应用程序时，我需要在EMR中设置一个自定义环境变量。我已经尝试加入： ... --configurations'[ { “Classification”：“spark-env”， “Configurations”：[ { “Classification”：“export “， ”Configurations“：[]， ”Properties“：{”SOME- ..

发布时间：2018-05-31 18:56:22 amazon-web-services hadoop apache-spark environment-variables emr 分布式计算/Hadoop

EMR中打开的文件过多

EMFILE：在org中打开的文件太多。 apache.hadoop.io.nativeio.NativeIO.open（Native Method） at org.apache.hadoop.io.SecureIOUtils.createForWrite（SecureIOUtils.java:161） at org.apache.hadoop.mapred .TaskLog.writeT ..

发布时间：2018-05-31 18:53:04 hadoop mapreduce elastic-map-reduce emr 分布式计算/Hadoop

从命令行获取纱线配置

在EMR中，有没有办法通过使用 yarn 命令获得配置的特定值？例如，我想要做这样的事情 yarn get-config yarn.scheduler.maximum-allocation -mb 解决方案这有点不直观，但它结果是 hdfs getconf 命令能够检查YARN和MapReduce的配置属性，而不仅仅是HDFS。 > hdfs g ..

发布时间：2018-05-31 18:51:34 hadoop yarn hadoop2 emr elastic-map-reduce 分布式计算/Hadoop

你如何使用JSON数据制作HIVE表格？

我想从一些JSON数据（嵌套）创建一个Hive表并在其上运行查询？这甚至有可能吗？我已经将JSON文件上传到S3并启动了一个EMR实例，但我不知道要在Hive控制台中键入要获取JSON的内容文件是一个Hive表？有没有人有一些示例命令让我开始，我找不到任何有用的Google ... 解决方案您需要使用JSON serde才能将您的JSON映射到表中的列。不幸的是， ..

发布时间：2018-05-31 18:40:41 json hadoop hive amazon-emr emr 分布式计算/Hadoop

EMR主节点是否知道其集群ID？

我希望能够创建EMR群集，并让这些群集将消息发送回中央队列。为了这个工作，我需要在每个主节点上运行某种代理。这些代理中的每一个都必须在这个消息中标识它自己，以便接收者知道该消息是关于哪个集群的。主节点知道它是否是id（j-的 * ** * * ）？如果没有，那么是否还有其他一些识别信息可以让消息接收者推断此ID？我已经查看了/ home / hadoop / conf，我没有找到任 ..

发布时间：2018-05-31 18:37:21 hadoop amazon-web-services emr 分布式计算/Hadoop

在EMR群集上优化GC

我在EMR上运行一个用Scala编写的Spark Job，每个执行程序的stdout都被GC分配失败填满。 2016-12-07T23：42：20.614 + 0000：[GC（分配失败）2016-12-07T23：42： 20.614 + 0000：[ParNew：909549K-> 432K（1022400K），0.0089234secs] 2279433K-> 1370373K（32 ..

发布时间：2018-04-19 18:03:12 apache-spark garbage-collection jvm emr amazon-emr 其他开发

AWS EMR星火保存到S3是很慢

我对EMR运行的星火作业需要很长时间。星火任务本身运行速度快。当我保存结果S3中花费比20分钟做这个更多... 16/02/05 1时44分44秒的延迟信息：状态code = [404]，异常= [com.amazonaws.services.s3.model.AmazonS3Exception：未找到（服务：亚马逊S3;状态code：404;错误code：404未找到;请求ID：561C ..

发布时间：2016-05-22 16:42:10 amazon-s3 apache-spark emr 其他开发

星火电子病历：时间在EMR运行数据并没有减少时，没有节点的增加

我的星火计划需要大量的包含从S3 JSON数据的zip文件。它执行的火花变换形式的数据一些清洁。在那之后，我保存为实木复合地板的文件。当我和1GB的数据10个节点8GB配置在AWS上运行我的程序大约需要11分钟。我改成了20个节点32GB的配置。尽管如此大约需要10分钟。仅减少1分钟左右。为什么这种行为？解决方案由于增加更多的机器并不总是该溶液中，加入更多的机会导致在网络上可以是在大多数情 ..

发布时间：2016-05-22 16:41:07 amazon-web-services amazon-s3 apache-spark emr 其他开发

星火无法获取从亚马逊室壁运动赛事

我一直在试图让星火阅读室壁运动最近的事件，但我收到的事件有问题。虽然Spark是能够连接到室壁运动，并能够从室壁运动获得的元数据，它不能够从它的事件。它总是取零元素了。有没有错误，只是空的结果返回。 Spark是能够得到的元数据（例如，在室壁运动等碎片的数量）。我已经使用了这些[1安培; 2]得到它的工作，但没有得到多少运气还指导。我也尝试过一些建议从SO [3]。群集有足够的资源/内核提 ..

发布时间：2016-05-22 16:19:27 apache-spark emr amazon-kinesis 其他开发

如何提交申请纱线集群所以在包装罐也被复制？

我想提出一个火花的工作指定火花CSV 包作为一个依赖：火花/斌/火花提交--packages com.databricks：火花csv_2.10：1.0.3 --deploy模式集群--master纱线集群script.py 但我得到下面的异常（片断） 15/05/05 22点23分46秒INFO yarn.Client：源文件和目标文件系统是相同的。不复制/home/hadoop/.iv ..

发布时间：2016-05-22 16:02:34 apache-spark yarn emr 其他开发

如何建立齐柏林与远程电子病历纱群集中工作

我有星火1.4.1亚马逊EMR的Hadoop集群V2.6与纱线资源管理器。我想单独的机器上部署齐柏林允许关闭EMR集群时，有没有运行的作业。我试着以下从这里 HTTPS指令：//zeppelin.incubator.apache。组织/文档/安装/ yarn_install.html 没有太大的成功。有人可以去神秘化的步骤齐柏林应如何连接到现有的纱线集群从不同的机器吗？解决方 ..

发布时间：2016-05-22 15:55:34 apache-spark yarn emr apache-zeppelin 其他开发

在Amazon EMR 4.0.0，设置/etc/spark/conf/spark-env.conf无效

我发起在亚马逊电子病历，其中有一个额外的类路径依赖我基于火花hiveserver2。由于亚马逊EMR这个错误：的https://petz2000.word$p$pss.com/2015/08/18/get-blas-working-with-spark-on-amazon-emr/ 我的类路径中无法通过提交“--driver类路径”选项所以我一定到修改/etc/spark/con ..

发布时间：2016-05-22 15:47:59 amazon-web-services apache-spark apache-spark-sql emr 其他开发

火花1.4.1 saveAsTextFile到S3是很慢的EMR-4.0.0

我跑火花1.4.1 amazom AWS EMR 4.0.0 对于一些振振有辞火花saveAsTextFile是电子病历4.0.0非常缓慢相比，EMR 3.8（为5秒，现在95秒）其实saveAsTextFile说，它在4.356秒的完成，但在那之后我看到很多INFO消息与404错误从com.amazonaws.latency logger在接下来的90秒火花＆GT; sc.parall ..

发布时间：2016-05-22 15:17:38 amazon-s3 apache-spark emr 其他开发

获得＆QUOT;文件不存在＆QUOT;运行一个Amazon EMR作业时出错

我已经上传我的数据 genotype1_large_ind_large.txt phenotype1_large_ind_large_1.txt 到S3系统，并在电子病历的用户界面，我喜欢设置参数如下 RunDear.run S3N：//scalability/genotype1_large_ind_large.txt S3N：//scalability/phenotype1_large_in ..

发布时间：2015-12-01 13:52:38 amazon-web-services amazon-emr emr 云存储

emr相关内容