emr 第3页 - IT屋-程序员软件开发技术分享社区

通过Terradata odbc驱动程序连接时，Presto协调器返回404错误

我正在尝试连接到驻留在EMR群集上的presto协调器.我正在使用Terradata ODBC驱动程序.我都通过通过ODBC连接对话框将相关细节放入DSN中来测试驱动程序，并编写了一个简单的C#应用程序来创建连接(请参见下面的代码). 问题是当在DSN对话框中测试连接或在C#代码中打开连接时，我得到了404错误返回. 我相信AWS中的安全组设置很好，因为我肯定可以进入配置为打开端口 ..

发布时间：2020-08-23 02:39:53 odbc emr presto 其他开发

创建默认的EMR管理的安全组的aws cli命令是什么?

使用EMR Web控制台时，您可以创建一个集群，AWS会自动创建名为"ElasticMapReduce-master"和EMR的EMR管理的安全组. "ElasticMapReduce从属".您如何通过aws cli创建这些文件? 我找到了aws emr create-default-roles，但是没有aws emr create-default-security-groups. 解 ..

发布时间：2020-08-23 02:39:36 emr aws-cli amazon-emr aws-security-group 其他开发

Spark AWS Emr检查点位置

我正在EMR上执行Spark作业，但需要创建一个检查点.我尝试使用s3，但收到此错误消息 17/02/24 14:34:35 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://spark- jobs/checkpoint/31d57e ..

发布时间：2020-08-23 02:39:32 scala apache-spark emr amazon-emr graphframes 其他开发

如何集成Ganglia for Spark 2.1作业指标，Spark忽略Ganglia指标

我正在尝试将Spark 2.1作业的指标集成到Ganglia. 我的spark-default.conf看起来像 *.sink.ganglia.class org.apache.spark.metrics.sink.GangliaSink *.sink.ganglia.name Name *.sink.ganglia.host $MASTERIP *.sink.ganglia.port ..

发布时间：2020-08-23 02:39:29 apache-spark spark-streaming emr amazon-emr ganglia 其他开发

Spark中Scala Seq行的NoSuchMethodError

尝试在Spark中运行纯Scala代码时出现错误，类似于以下帖子:他们的问题是他们使用了错误的Scala版本来编译其Spark项目.但是，我的是正确的版本. 我在AWS EMR集群上安装了Spark 1.6.0，以运行该程序.该项目是在安装了Scala 2.11且在所有依赖项和构建文件中列出的2.11的本地计算机上编译的，而没有任何对2.10的引用. 这是引发错误的确切行: va ..

发布时间：2020-08-23 02:38:05 scala apache-spark emr 其他开发

得到“现有锁/var/run/yum.pid:另一个副本以pid的形式运行..."在EMR引导过程中

作为引导步骤的一部分，我需要在EMR群集(AMI 3.1.1)中安装python3.所以我添加了以下命令: sudo yum install -y python3 但是每次出现错误时，都会说: Existing lock /var/run/yum.pid: another copy is running as pid 1829. Another app is currently h ..

发布时间：2020-08-23 02:37:58 yum emr amazon-emr 其他开发

Spark/数据帧中的AWS SSE-KMS加密

我已经配置了启用加密的EMR集群(emrfs-site.xml中的属性) 我正在使用dataframe savemode.append写入S3n://my-bucket/path/ 保存在s3中. 但是我看不到该对象对AWS KMS进行了加密. 但是，当我从EMR的配置单元中进行简单插入时，我能够看到对象已被aws kms加密. 如何使用sse kms从S3中的数据帧加密文件? ..

发布时间：2020-08-23 02:36:43 apache-spark encryption amazon-s3 emr 其他开发

我大约有55个EMR集群(它们都已终止)，并且一直在尝试使用 boto 中的 list_clusters 方法检索整个55个EMR集群.我一直在寻找有关从boto分页结果集数量的示例，但找不到任何示例.鉴于此声明: emr_object.list_clusters(cluster_states=["TERMINATED"], marker="what_should_i_use_here"). ..

发布时间：2020-08-23 02:36:38 python pagination boto emr Python

使用EMRFS(s3存储桶)创建EMR 5.3.0作为存储

我正在尝试使用EMRFS(S3存储桶)作为存储来创建EMR 5.3.0. 请为此提供一般指导. 当前我正在使用以下命令创建InstanceType = m4.2xlarge的EMR 5.3.0.虽然工作正常，但是使用EMRFS作为存储却无法做到 aws emr create-cluster --name "DEMAPAUR001" --release-label emr-5.3.0 - ..

发布时间：2020-08-23 02:33:08 amazon-web-services amazon-s3 emr amazon-emr 其他开发

在EMR Spark应用程序中加载道具文件

我正在尝试使用:- 在我的spark应用程序中加载自定义属性 command-runner.jar,spark-submit,--deploy-mode,cluster,--properties-file,s3://spark-config-test/myprops.conf,--num-executors,5,--executor-cores,2,--class,com.amazon.Mai ..

发布时间：2020-08-23 02:31:48 apache-spark emr amazon-data-pipeline 其他开发

从管道AWS删除s3文件

我想问一下我正在尝试使用AWS中的数据管道来完成的处理任务，但是我无法使其正常工作. 基本上，我有2个代表2个MySQL数据库的数据节点，应该定期从中提取数据并将其放在S3存储桶中.每天选择添加的每一行(例如今天-1天)，此复制活动都可以正常进行. 但是，包含收集的数据作为CSV的存储桶应该成为EMR活动的输入，该活动将处理这些文件并汇总信息.问题是我不知道如何删除或移动已经处理过的文 ..

发布时间：2020-08-23 02:31:41 amazon-web-services emr amazon-data-pipeline 其他开发

Spark RDD方法"saveAsTextFile"引发异常即使删除输出目录也是如此. org.apache.hadoop.mapred.FileAlreadyExistsException

我正在RDD [String]上调用此方法，并在参数中指定了目标. (斯卡拉) 即使在启动前删除目录后，该过程也会出现此错误. 我在EMR群集上运行此过程，输出位置在AWS S3上. 下面是使用的命令: spark-submit --deploy-mode cluster --class com.hotwire.hda.spark.prd.pricingengine.PRDPricin ..

发布时间：2020-08-23 02:30:36 scala amazon-web-services apache-spark rdd emr 其他开发

如何防止EMR Spark步骤重试?

我有一个AWS EMR集群(emr-4.2.0，Spark 1.5.2)，在这里我从aws cli提交步骤.我的问题是，如果Spark应用程序失败，则YARN会尝试再次运行该应用程序(在同一EMR步骤下). 我该如何预防? 我正在尝试设置--conf spark.yarn.maxAppAttempts=1，该设置已在“环境/火花属性"中正确设置，但是并不能阻止YARN重新启动应用程序. ..

发布时间：2020-08-23 02:30:24 amazon-web-services apache-spark yarn emr 其他开发

WARN ReliableDeliverySupervisor:与远程系统的关联失败，地址现在被设置为[5000] ms.原因:[已取消关联]

我在aws spark上运行以下句子 val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ case class Wiki(project: String, title: String, count: Int, byte_size: String) val data = ..

发布时间：2020-08-23 02:29:22 apache-spark apache-spark-sql emr 其他开发

pyspark.sql.utils.AnalysisException:u'路径不存在

我正在使用标准hdfs在Amazon Emr上执行火花作业，而不是使用S3来存储我的文件.我在hdfs://user/hive/warehouse/中有一个配置单元表，但是运行我的spark作业时找不到该配置表.我配置了spark属性spark.sql.warehouse.dir来反映我的hdfs目录的属性，而yarn日志确实说: 17/03/28 19:54:05 INFO SharedS ..

发布时间：2020-08-23 02:27:04 hadoop apache-spark pyspark emr pyspark-sql 其他开发

如何在EMR上为Spark/Zeppelin设置spark.driver.memory

当使用EMR(与Spark，Zeppelin)一起使用时，在Zeppelin Spark解释器设置中更改spark.driver.memory无效. 我想知道使用EMR Web界面(不是AWS CLI)创建集群时设置Spark驱动程序内存的最佳和最快方法是什么吗? Bootstrap动作可以解决吗? 如果是，请提供一个示例，说明引导操作文件的外观如何? 解决方案您始终可以尝试 ..

发布时间：2020-08-23 02:24:44 apache-spark emr amazon-emr apache-zeppelin 其他开发

如何找到JAR:/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在从多元化的角度练习有关Amazon EMR的视频教程.我被卡住了，因为遇到此错误我无法继续 Not a valid JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar 请注意，该教程较旧，并且使用的是Emr较旧的版本.我使用的是最新版本吗? 我采取的步骤是在腻子中输入凭据后 1)Hadoop 2)mk ..

发布时间：2020-08-23 02:24:33 java python hadoop amazon-web-services emr Java开发

Boto3 EMR-蜂巢步骤

是否可以使用Boto 3执行蜂巢步骤?我一直在使用AWS CLI，但是从文档(谢谢解决方案我能够使用Boto3使它起作用: # First create your hive command line arguments hive_args = "hive -v -f s3://user/hadoop/hive.hql" # Split the hive args to a li ..

发布时间：2020-08-23 02:24:25 amazon-web-services hive boto emr boto3 其他开发

启动集群时在EMR上配置Zeppelin的Spark解释器

我正在EMR上创建集群，并配置Zeppelin从S3读取笔记本.为此，我使用了一个看起来像这样的json对象: [ { "Classification": "zeppelin-env", "Properties": { }, "Configurations": [ { "Classification": "export", ..

发布时间：2020-08-23 02:23:22 apache-spark emr amazon-emr apache-zeppelin 其他开发

AWS EMR执行"bootstrap"操作群集中所有已运行的计算机上的脚本

我有一个运行24/7的EMR集群.我无法关闭它并启动新的. 我想做的是对已经运行的集群执行类似引导操作的操作，最好使用Python和boto或AWS CLI. 我可以想象分两个步骤进行操作: 1)在所有正在运行的实例上运行脚本(如果可以的话，例如从boto，那将是很好的选择) 2)将脚本添加到引导操作中，以防我想调整集群大小. 所以我的问题是:是否可以使用boto或至 ..

发布时间：2020-08-23 02:22:54 python amazon-web-services boto emr amazon-emr Python

emr相关内容