emr相关内容

hive版本0.13.1中的性能问题

我使用 AWS-EMR 运行我的Hive查询,而我在运行hive版本0.13.1时遇到性能问题。 更新版本的配置单元需要大约5分钟来运行10行数据。但230804行的相同脚本需要2天,并且仍在运行。我应该怎么做才能分析和解决问题? 示例数据: 表1: hive>描述foo; 确定 orderno字符串 所用时间:0.101秒,提取:1行 ta ..
发布时间:2018-05-31 19:19:22 分布式计算/Hadoop

Autoscaling EMR是否需要?我应该只使用EC2吗?我应该只使用Qubole吗?

为了减少配置时间,我们决定继续使用5个实例的专用EMR集群(我们预计需要大约5个实例)。如果我们需要更多,我们认为我们需要实现某种自动缩放。 我对EMR并不熟悉,它支持自动缩放吗?我在文档中找到了这个: http:// docs。 aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-resize.html 这 ..

在aws中终止一个spark步骤

我想在EMR火花集群上设置一系列火花步骤,如果时间过长,则终止当前步骤。但是,当我进入主节点并运行hadoop jobs -list时,主节点似乎认为没有作业正在运行。我不想终止集群,因为这样做会迫使我购买我正在运行的任何集群的全新小时。任何人都可以帮助我终止EMR中的spark-step而不终止整个集群吗? 这很简单: yarn application -kill [applicatio ..

如何指定映射配置&使用Amazon的EMR在CLI中使用定制jar的java选项?

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置,例如 mapred.task.timeout,mapred.min.split.size 等。 使用外部脚本语言(如ruby或python)运行时,我们可以使用以下方法来指定这些配置: ruby​​ elastic-mapreduce -j --stream --step-name“mystream”--jobcon ..
发布时间:2018-05-31 19:09:03 Java开发

如何在AWS EMR上重新启动纱线

我正在使用Hadoop 2.6.0( emr-4.2.0 图片)。我在 yarn-site.xml 中做了一些修改,并希望重新启动纱线以使更改生效。 有没有一个命令使用我可以做到这一点? 解决方案 编辑(10/26/2017 ):有关如何执行此操作的更详细的知识中心文章已由AWS正式发布在此处 - https://aws.amazon.com/premiumsupport/know ..
发布时间:2018-05-31 19:07:18 分布式计算/Hadoop

如何在EMR中设置自定义环境变量以供Spark应用程序使用

在运行Spark应用程序时,我需要在EMR中设置一个自定义环境变量。 我已经尝试加入: ... --configurations'[ { “Classification”:“spark-env”, “Configurations”:[ { “Classification”:“export “, ”Configurations“:[], ”Properties“:{”SOME- ..

从命令行获取纱线配置

在EMR中,有没有办法通过使用 yarn 命令获得配置的特定值? 例如,我想要做这样的事情 yarn get-config yarn.scheduler.maximum-allocation -mb 解决方案 这有点不直观,但它结果是 hdfs getconf 命令能够检查YARN和MapReduce的配置属性,而不仅仅是HDFS。 > hdfs g ..
发布时间:2018-05-31 18:51:34 分布式计算/Hadoop

你如何使用JSON数据制作HIVE表格?

我想从一些JSON数据(嵌套)创建一个Hive表并在其上运行查询?这甚至有可能吗? 我已经将JSON文件上传到S3并启动了一个EMR实例,但我不知道要在Hive控制台中键入要获取JSON的内容文件是一个Hive表? 有没有人有一些示例命令让我开始,我找不到任何有用的Google ... 解决方案 您需要使用JSON serde才能将您的JSON映射到表中的列。 不幸的是, ..
发布时间:2018-05-31 18:40:41 分布式计算/Hadoop

EMR主节点是否知道其集群ID?

我希望能够创建EMR群集,并让这些群集将消息发送回中央队列。为了这个工作,我需要在每个主节点上运行某种代理。这些代理中的每一个都必须在这个消息中标识它自己,以便接收者知道该消息是关于哪个集群的。 主节点知道它是否是id(j-的 * ** * * )?如果没有,那么是否还有其他一些识别信息可以让消息接收者推断此ID? 我已经查看了/ home / hadoop / conf,我没有找到任 ..
发布时间:2018-05-31 18:37:21 分布式计算/Hadoop

在EMR群集上优化GC

我在EMR上运行一个用Scala编写的Spark Job,每个执行程序的stdout都被GC分配失败填满。 2016-12-07T23:42:20.614 + 0000:[GC(分配失败)2016-12-07T23:42: 20.614 + 0000:[ParNew:909549K-> 432K(1022400K),0.0089234secs] 2279433K-> 1370373K(32 ..
发布时间:2018-04-19 18:03:12 其他开发

AWS EMR星火保存到S3是很慢

我对EMR运行的星火作业需要很长时间。星火任务本身运行速度快。当我保存结果S3中花费比20分钟做这个更多... 16/02/05 1时44分44秒的延迟信息:状态code = [404],异常= [com.amazonaws.services.s3.model.AmazonS3Exception:未找到(服务:亚马逊S3;状态code:404;错误code:404未找​​到;请求ID:561C ..
发布时间:2016-05-22 16:42:10 其他开发

星火电子病历:时间在EMR运行数据并没有减少时,没有节点的增加

我的星火计划需要大量的包含从S3 JSON数据的zip文件。它执行的火花变换形式的数据一些清洁。在那之后,我保存为实木复合地板的文件。当我和1GB的数据10个节点8GB配置在AWS上运行我的程序大约需要11分钟。我改成了20个节点32GB的配置。尽管如此大约需要10分钟。仅减少1分钟左右。为什么这种行为? 解决方案 由于增加更多的机器并不总是该溶液中,加入更多的机会导致在网络上可以是在大多数情 ..
发布时间:2016-05-22 16:41:07 其他开发

星火无法获取从亚马逊室壁运动赛事

我一直在试图让星火阅读室壁运动最近的事件,但我收到的事件有问题。虽然Spark是能够连接到室壁运动,并能够从室壁运动获得的元数据,它不能够从它的事件。它总是取零元素了。 有没有错误,只是空的结果返回。 Spark是能够得到的元数据(例如,在室壁运动等碎片的数量)。 我已经使用了这些[1安培; 2]得到它的工作,但没有得到多少运气还指导。我也尝试过一些建议从SO [3]。群集有足够的资源/内核提 ..
发布时间:2016-05-22 16:19:27 其他开发

如何提交申请纱线集群所以在包装罐也被复制?

我想提出一个火花的工作指定火花CSV 包作为一个依赖: 火花/斌/火花提交--packages com.databricks:火花csv_2.10:1.0.3 --deploy模式集群--master纱线集群script.py 但我得到下面的异常(片断) 15/05/05 22点23分46秒INFO yarn.Client:源文件和目标文件系统是相同的。不复制/home/hadoop/.iv ..
发布时间:2016-05-22 16:02:34 其他开发

如何建立齐柏林与远程电子病历纱群集中工作

我有星火1.4.1亚马逊EMR的Hadoop集群V2.6与纱线资源管理器。 我想单独的机器上部署齐柏林允许关闭EMR集群时,有没有运行的作业。 我试着以下从这里 HTTPS指令://zeppelin.incubator.apache。组织/文档/安装/ yarn_install.html 没有太大的成功。 有人可以去神秘化的步骤齐柏林应如何连接到现有的纱线集群从不同的机器吗? 解决方 ..
发布时间:2016-05-22 15:55:34 其他开发

在Amazon EMR 4.0.0,设置/etc/spark/conf/spark-env.conf无效

我发起在亚马逊电子病历,其中有一个额外的类路径依赖我基于火花hiveserver2。由于亚马逊EMR这​​个错误: 的https://petz2000.word$p$pss.com/2015/08/18/get-blas-working-with-spark-on-amazon-emr/ 我的类路径中无法通过提交“--driver类路径”选项 所以我一定到修改/etc/spark/con ..

火花1.4.1 saveAsTextFile到S3是很慢的EMR-4.0.0

我跑火花1.4.1 amazom AWS EMR 4.0.0 对于一些振振有辞火花saveAsTextFile是电子病历4.0.0非常缓慢相比,EMR 3.8(为5秒,现在95秒) 其实saveAsTextFile说,它在4.356秒的完成,但在那之后我看到很多INFO消息与404错误从com.amazonaws.latency logger在接下来的90秒 火花> sc.parall ..
发布时间:2016-05-22 15:17:38 其他开发