emr 第4页 - IT屋-程序员软件开发技术分享社区

纱:火花中的执行者数和执行者核数有什么区别?

我正在AWS AWS上学习Spark.在此过程中，我试图了解执行程序数(--num-executors)和执行程序核心数(--executor-cores)之间的区别.有人可以在这里告诉我吗? 当我尝试提交以下工作时，我也收到错误消息: spark-submit --deploy-mode cluster --master yarn --num-executors 1 --execut ..

发布时间：2020-08-23 02:22:52 apache-spark yarn emr 其他开发

更改conf设置后如何在EMR中重新启动Spark服务?

我正在使用EMR-5.9.0，更改某些配置文件后，我想重新启动服务以查看效果.我该如何实现? 我尝试使用initctl列表查找服务的名称，正如我在其他答案中看到的那样，但是没有运气... 解决方案由于Spark在Hadoop Yarn上作为应用程序运行，因此您可以尝试 sudo stop hadoop-yarn-resourcemanager sudo start h ..

发布时间：2020-08-23 02:21:44 apache-spark emr amazon-emr 其他开发

提高spark.yarn.executor.memoryOverhead

我正在尝试在EMR上运行(py)Spark作业，该作业将处理大量数据.目前，我的工作失败，并显示以下错误消息: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 GB physical memory used. Consider boosting spark.yarn.executor.me ..

发布时间：2020-08-23 02:20:41 amazon-web-services apache-spark pyspark emr amazon-emr 其他开发

使用Amazon的"maximizeResourceAllocation"的Spark + EMR设置未使用所有核心/vcore

我正在使用Amazon特定的maximizeResourceAllocation标志针对Spark运行EMR集群(版本为emr-4.2.0)，如我正在使用m3.2xlarge实例作为工作节点运行集群.我正在为YARN主服务器使用单个m3.xlarge-我可以让它运行的最小的m3实例，因为它执行的不多. 情况是这样的:当我运行Spark作业时，每个执行器的请求核心数是8.(我只有在配置"y ..

发布时间：2020-08-23 02:19:33 apache-spark yarn emr amazon-emr elastic-map-reduce 其他开发

检测到Guava问题#1635，该问题指示正在使用的Guava版本低于16.01

我正在emr上运行spark作业，并使用datastax连接器连接到cassandra集群.我在使用番石榴罐时遇到问题，请如下查找详细信息我在下面的cassandra deps中使用 cqlsh 5.0.1 | Cassandra 3.0.1 | CQL spec 3.3.1 在具有以下Maven部门的EMR 4.4上运行火花作业 org.apache.spark spark- ..

发布时间：2020-08-23 02:17:25 apache-spark guava datastax emr 其他开发

将流式传输步骤添加到在AWS EMR 5.0上运行的boto3中的MR作业中

我正在尝试将我用python编写的几个MR作业从AWS EMR 2.4迁移到AWS EMR 5.0.到现在为止，我一直在使用boto 2.4，但它不支持EMR 5.0，因此我正尝试转向boto3.之前，在使用boto 2.4时，我使用了StreamingStep模块来指定输入位置和输出位置，以及映射器和化简器源文件的位置.使用此模块，我实际上不必创建或上传任何jar即可运行我的工作.但是，在bot ..

发布时间：2020-08-23 02:16:23 python amazon-web-services emr boto3 Python

附加新数据时，如何避免从S3中读取旧文件?

在2小时内，spark作业正在运行，以将某些tgz文件转换为镶木地板. 作业将新数据附加到s3中的现有镶木中: df.write.mode("append").partitionBy("id","day").parquet("s3://myBucket/foo.parquet") 在提交火花的输出中，我可以看到花了大量时间在读取旧的镶木地板文件上，例如: 16/11/27 14:0 ..

发布时间：2020-08-23 02:16:21 amazon-s3 emr amazon-emr parquet bigdata 其他开发

Apache Hive:如何将字符串转换为时间戳?

我正在尝试将REC_TIME列中的字符串转换为蜂巢中的时间戳格式. 例如: Sun Jul 31 UTC 2016 => 2016-07-31 09:28:20 SELECT xxx, UNIX_TIMESTAMP(REC_TIME, "E M dd HH:mm:ss z yyyy") FROM wlogs LIMIT 10; 当我执行上述SQL时，它返回NULL值. 解决方 ..

发布时间：2020-08-23 02:13:01 hadoop hive hiveql emr 其他开发

EMR Spark-TransportClient:无法发送RPC

我遇到此错误，我试图增加群集实例以及执行程序和驱动程序参数上的内存，但没有成功. 17/05/07 23:17:07 ERROR TransportClient: Failed to send RPC 6465703946954088562 to ip-172-30-12-164.eu-central-1.compute.internal/172.30.12.164:34706: java. ..

发布时间：2020-08-23 02:11:44 apache-spark yarn emr 其他开发

Pyspark-加载文件:路径不存在

我是Spark的新手.我正在尝试读取EMR群集中的本地csv文件.该文件位于:/home/hadoop/.我正在使用的脚本是这样的: spark = SparkSession \ .builder \ .appName("Protob Conversion to Parquet") \ .config("spark.some.config.option", "some ..

发布时间：2020-08-23 02:11:42 apache-spark pyspark emr amazon-emr pyspark-sql 其他开发

纱线上的火花模式以“退出状态:-100"结束.诊断:在“丢失"节点上释放的容器"

我正在尝试加载具有1TB数据的数据库，以使用最新的EMR在AWS上触发.而且运行时间是如此之长，以至于什至在6小时之内都无法完成，但是在运行6h30m之后，我收到一些错误消息，宣布Container在 lost 节点上释放，然后工作失败.日志是这样的: 16/07/01 22:45:43 WARN scheduler.TaskSetManager: Lost task 144178.0 in ..

发布时间：2020-08-23 02:09:21 apache-spark yarn emr 其他开发

为什么EMR上的Yarn不能将所有节点分配给正在运行的Spark作业?

我正在Amazon Elastic Map Reduce(EMR)上的Apache Spark上运行作业.目前，我正在emr-4.1.0上运行，其中包括Amazon Hadoop 2.6.0和Spark 1.5.0. 当我开始工作时，YARN正确地将所有工作节点分配给了spark工作(当然，其中一个是驱动程序). 我将神奇的"maximizeResourceAllocation"属性设 ..

发布时间：2020-08-23 02:08:11 apache-spark yarn emr amazon-emr elastic-map-reduce 其他开发

如何在Amazon EMR上引导Python模块的安装?

我想做一些非常基础的事情，只需通过EMR控制台启动Spark集群并运行依赖于Python包的Spark脚本即可(例如，解决方案最直接的方法是创建一个包含安装命令的bash脚本，将其复制到S3，然后从控制台设置引导操作以指向您的脚本. 这是我在生产中使用的示例: s3://mybucket/bootstrap/install_python_modules.sh #!/bin/b ..

发布时间：2020-08-23 02:07:01 python amazon-web-services apache-spark emr Python

“容器因超出内存限制而被YARN杀死. 10.4 GB使用的10.4 GB物理内存".在具有75GB内存的EMR群集上

我正在AWS EMR上运行一个大小为m3.xlarge的5节点Spark集群(1个主节点4个从节点).我成功地浏览了一个146Mb bzip2压缩CSV文件，最终得到了完美的汇总结果. 现在，我正在尝试在此群集上处理〜5GB的bzip2 CSV文件，但是我收到此错误: 16/11/23 17:29:53警告TaskSetManager:在阶段6.0中丢失了任务49.2(TID xxx， ..

发布时间：2020-08-23 02:06:59 apache-spark emr amazon-emr bigdata 其他开发

EMR的外部配置单元metastore

我正在使用默认的配置单元meta存储创建一个EMR集群，此后，我使用一些属性将hive-site.xml覆盖，该属性将aws rds实例指向配置单元metastore，一切都很好，但是在重新启动配置单元服务器之后，我无法将RDS用作配置单元metastore.它仍然在EMR创建的默认配置单元metastore中使用. 解决方案在创建集群时，可以通过为应用程序提供配置对象来覆盖应用程序的默 ..

发布时间：2020-08-11 07:07:04 mysql hadoop hive amazon-rds emr 数据库

EMR上S3的外部检查点

我正在尝试为我的Flink程序部署生产集群.我正在使用安装了Flink 1.3.2的标准hadoop-core EMR群集，并使用YARN来运行它. 我正在尝试将RocksDB配置为将检查点写入S3存储桶.我正在尝试浏览以下文档:java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.addResource(Lorg ..

发布时间：2020-07-06 02:21:05 amazon-s3 apache-flink emr amazon-emr rocksdb 其他开发

如何通过Amazon AMI在Amazon AWS EC2或EMR上安装GUI

我需要运行一个需要GUI界面才能启动和配置的应用程序。我还需要能够在Amazon的EC2服务和EMR服务上运行此应用程序。 EMR要求意味着它必须在Amazon的Linux AMI上运行。在广泛搜索之后，我无法找到任何现成的解决方案，尤其是在Windows 2000上运行的要求。亚马逊的AMI。最接近且最常用的解决方案是此处。不幸的是，它是在RHEL6实例上开发的，该实例与亚马逊的AMI完 ..

发布时间：2020-06-04 00:50:44 amazon-ec2 emr amazon-emr xfce 其他开发

Spark /标量大小的SQL查询超过Integer.MAX_VALUE

我正在尝试使用Spark在S3事件上创建一个简单的SQL查询。我正在加载约30GB的JSON文件，如下所示： val d2 = spark.read.json（“ s3n：// myData / 2017/02/01/1234“）; d2.persist（org.apache.spark.storage.StorageLevel.MEMORY_AND_DISK）; d2.regis ..

发布时间：2020-06-04 00:47:13 sql apache-spark amazon-ec2 emr 其他开发

需要将大表从RDS迁移到DynamoDB的策略建议

我们在RDS中有几个mySql表，它们很大（超过700 GB），我们想迁移到DynamoDB表。您能提出一种干净，并行的策略或方向建议吗？也许使用EMR或AWS Data Pipeline。解决方案您可以使用AWS Pipeline。有两个基本模板，一个用于将RDS表移动到S3，另一个用于将数据从S3导入DynamoDB。您可以使用这两个模板创建自己的管道。注意 ..

发布时间：2020-06-04 00:16:46 amazon-web-services amazon-dynamodb amazon-rds emr amazon-data-pipeline 其他开发

AWS Athena：“ msck修复表”会产生费用吗？

我在S3中有ORC数据，如下所示： s3：// bucket / orc / clientId = client- 1 / year = 2017 / month = 3 / day = 16 / hour = 20 / s3：// bucket / orc / clientId = client-2 / year = 2017 / month = 3 / day = 16 / hou ..

发布时间：2020-06-03 23:08:13 hive emr amazon-emr amazon-athena 其他开发

emr相关内容