emr相关内容

通过Terradata odbc驱动程序连接时,Presto协调器返回404错误

我正在尝试连接到驻留在EMR群集上的presto协调器.我正在使用Terradata ODBC驱动程序.我都通过通过ODBC连接对话框将相关细节放入DSN中来测试驱动程序,并编写了一个简单的C#应用​​程序来创建连接(请参见下面的代码). 问题是当在DSN对话框中测试连接或在C#代码中打开连接时,我得到了404错误返回. 我相信AWS中的安全组设置很好,因为我肯定可以进入配置为打开端口 ..
发布时间:2020-08-23 02:39:53 其他开发

Spark中Scala Seq行的NoSuchMethodError

尝试在Spark中运行纯Scala代码时出现错误,类似于以下帖子:他们的问题是他们使用了错误的Scala版本来编译其Spark项目.但是,我的是正确的版本. 我在AWS EMR集群上安装了Spark 1.6.0,以运行该程序.该项目是在安装了Scala 2.11且在所有依赖项和构建文件中列出的2.11的本地计算机上编译的,而没有任何对2.10的引用. 这是引发错误的确切行: va ..
发布时间:2020-08-23 02:38:05 其他开发

Spark/数据帧中的AWS SSE-KMS加密

我已经配置了启用加密的EMR集群(emrfs-site.xml中的属性) 我正在使用dataframe savemode.append写入S3n://my-bucket/path/ 保存在s3中. 但是我看不到该对象对AWS KMS进行了加密. 但是,当我从EMR的配置单元中进行简单插入时,我能够看到对象已被aws kms加密. 如何使用sse kms从S3中的数据帧加密文件? ..
发布时间:2020-08-23 02:36:43 其他开发

无法使用Boto对EMR集群进行分页

我大约有55个EMR集群(它们都已终止),并且一直在尝试使用 boto 中的 list_clusters 方法检索整个55个EMR集群.我一直在寻找有关从boto分页结果集数量的示例,但找不到任何示例.鉴于此声明: emr_object.list_clusters(cluster_states=["TERMINATED"], marker="what_should_i_use_here"). ..
发布时间:2020-08-23 02:36:38 Python

从管道AWS删除s3文件

我想问一下我正在尝试使用AWS中的数据管道来完成的处理任务,但是我无法使其正常工作. 基本上,我有2个代表2个MySQL数据库的数据节点,应该定期从中提取数据并将其放在S3存储桶中.每天选择添加的每一行(例如今天-1天),此复制活动都可以正常进行. 但是,包含收集的数据作为CSV的存储桶应该成为EMR活动的输入,该活动将处理这些文件并汇总信息.问题是我不知道如何删除或移动已经处理过的文 ..
发布时间:2020-08-23 02:31:41 其他开发

Spark RDD方法"saveAsTextFile"引发异常即使删除输出目录也是如此. org.apache.hadoop.mapred.FileAlreadyExistsException

我正在RDD [String]上调用此方法,并在参数中指定了目标. (斯卡拉) 即使在启动前删除目录后,该过程也会出现此错误. 我在EMR群集上运行此过程,输出位置在AWS S3上. 下面是使用的命令: spark-submit --deploy-mode cluster --class com.hotwire.hda.spark.prd.pricingengine.PRDPricin ..
发布时间:2020-08-23 02:30:36 其他开发

如何防止EMR Spark步骤重试?

我有一个AWS EMR集群(emr-4.2.0,Spark 1.5.2),在这里我从aws cli提交步骤.我的问题是,如果Spark应用程序失败,则YARN会尝试再次运行该应用程序(在同一EMR步骤下). 我该如何预防? 我正在尝试设置--conf spark.yarn.maxAppAttempts=1,该设置已在“环境/火花属性"中正确设置,但是并不能阻止YARN重新启动应用程序. ..
发布时间:2020-08-23 02:30:24 其他开发

pyspark.sql.utils.AnalysisException:u'路径不存在

我正在使用标准hdfs在Amazon Emr上执行火花作业,而不是使用S3来存储我的文件.我在hdfs://user/hive/warehouse/中有一个配置单元表,但是运行我的spark作业时找不到该配置表.我配置了spark属性spark.sql.warehouse.dir来反映我的hdfs目录的属性,而yarn日志确实说: 17/03/28 19:54:05 INFO SharedS ..
发布时间:2020-08-23 02:27:04 其他开发

如何在EMR上为Spark/Zeppelin设置spark.driver.memory

当使用EMR(与Spark,Zeppelin)一起使用时,在Zeppelin Spark解释器设置中更改spark.driver.memory无效. 我想知道使用EMR Web界面(不是AWS CLI)创建集群时设置Spark驱动程序内存的最佳和最快方法是什么吗? Bootstrap动作可以解决吗? 如果是,请提供一个示例,说明引导操作文件的外观如何? 解决方案 您始终可以尝试 ..
发布时间:2020-08-23 02:24:44 其他开发

如何找到JAR:/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在从多元化的角度练习有关Amazon EMR的视频教程.我被卡住了,因为遇到此错误我无法继续 Not a valid JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar 请注意,该教程较旧,并且使用的是Emr较旧的版本.我使用的是最新版本吗? 我采取的步骤是在腻子中输入凭据后 1)Hadoop 2)mk ..
发布时间:2020-08-23 02:24:33 Java开发

Boto3 EMR-蜂巢步骤

是否可以使用Boto 3执行蜂巢步骤?我一直在使用AWS CLI,但是从文档(谢谢 解决方案 我能够使用Boto3使它起作用: # First create your hive command line arguments hive_args = "hive -v -f s3://user/hadoop/hive.hql" # Split the hive args to a li ..
发布时间:2020-08-23 02:24:25 其他开发

AWS EMR执行"bootstrap"操作群集中所有已运行的计算机上的脚本

我有一个运行24/7的EMR集群.我无法关闭它并启动新的. 我想做的是对已经运行的集群执行类似引导操作的操作,最好使用Python和boto或AWS CLI. 我可以想象分两个步骤进行操作: 1)在所有正在运行的实例上运行脚本(如果可以的话,例如从boto,那将是很好的选择) 2)将脚本添加到引导操作中,以防我想调整集群大小. 所以我的问题是:是否可以使用boto或至 ..
发布时间:2020-08-23 02:22:54 Python