amazon-emr相关内容

Spark中止火花作业时打开的文件太多

在我的应用程序中,我正在读取40 GB的文本文件,该文件总共分布在188个文件中. 我分割了这些文件,并使用rdd对在火花中每行创建了xml文件. 对于40 GB的输入,它将创建数百万个小型xml文件,这是我的要求. 一切正常,但是当spark将文件保存在S3中时,它将引发错误,并且作业失败. 这是我得到的例外 由以下原因引起:java.nio.file.FileSystemExcep ..

将DAG转换为任务的巨大延迟

这是我的步骤: 将spark应用提交到EMR集群 驱动程序启动,我可以看到Spark-ui(尚未创建阶段) 驱动程序从s3读取约3000个零件的orc文件,进行一些转换并将其保存回s3 执行保存应该在spark-ui中创建一些阶段,但是这些阶段要花很长时间才能出现在spark-ui中 出现阶段并开始执行 为什么我在第4步中遇到了这么大的延迟?在这段时间内,集群显然正在等待,CP ..
发布时间:2020-08-23 02:36:50 其他开发

如何在Hive中包含jar(Amazon Hadoop env)

我需要在Hive中包含较新的protobuf jar(高于2.5.0).无论如何,无论我把罐子放在哪里-它都被推到类路径的末尾.我如何确保该jar位于Hive的类路径的开头? 解决方案 要将您自己的jar添加到Hive类路径中,使其包含在类路径的开头,并且不会被某些hadoop jar重载,则需要设置以下Env变量- 导出HADOOP_USER_CLASSPATH_FIRST = t ..
发布时间:2020-08-23 02:36:40 其他开发

AWS数据管道EmrCluster的安全配置字段

我通过AWS管理控制台上的常规EMR群集向导创建了一个AWS EMR群集,并且能够选择一个安全配置,例如,在导出CLI命令--security-configuration 'mySecurityConfigurationValue'时. 我现在需要通过AWS Data Pipeline创建一个类似的EMR,但是我看不到任何可以指定此安全配置字段的选项. 我看到的唯一类似字段是EmrMa ..

使用Lambda将文件从S3复制到EMR本地

我需要使用Lambda以编程方式将文件从S3移到EMR的本地目录/home/hadoop. S3DistCp复制到HDFS.然后,我登录EMR并在命令行上运行CopyToLocal hdfs命令,以将文件获取到/home/hadoop. 是否存在使用Lambda中的boto3从S3复制到Emr的本地目录的编程方式? 解决方案 我编写了一个测试Lambda函数,以将作业步骤提交给 ..
发布时间:2020-08-23 02:33:26 其他开发

无法在pyspark中应用pandas_udf

我正在尝试在附加到AWS EMR实例的jupyter笔记本上进行一些与pyspark相关的实验.我有一个spark数据框,它从s3读取数据,然后过滤掉一些东西.使用df1.printSchema()输出打印模式,如下所示: root |-- idvalue: string (nullable = true) |-- locationaccuracyhorizontal: float (n ..
发布时间:2020-08-23 02:33:19 Python

从EMR迁移到AWS Glue后在Spark SQL中找不到表

我在EMR上有Spark作业,并且将EMR配置为对Hive和Spark元数据使用Glue目录. 我创建了Hive外部表,它们出现在Glue目录中,我的Spark作业可以在Spark SQL中像spark.sql("select * from hive_table ...") 一样引用它们. 现在,当我尝试在Glue作业中运行相同的代码时,它将失败,并显示“找不到表"错误.看来Glue作业 ..
发布时间:2020-08-23 02:33:15 其他开发

AWS EMR Spark:写入S3时出错-IllegalArgumentException-无法从空字符串创建路径

我已经很长时间试图解决这个问题了……不知道为什么要得到这个?仅供参考,我正在AWS EMR集群上的集群上运行Spark.我调试了一下,清楚地看到了提供的目标路径……类似于s3://my-bucket-name/. spark作业将创建orc文件,并在创建分区后将它们写入:date=2017-06-10.有什么想法吗? 17/07/08 22:48:31 ERROR ApplicationMa ..

EMR如何处理输入和输出的s3存储桶?

我正在整理一个EMR群集,并创建了在EMR文档中,但是我应该如何上传数据并从中读取数据?在我的spark提交步骤中,我说使用s3://myclusterbucket/scripts/script.py的脚本名称是否输出不会自动上传到s3?如何处理依赖关系?我尝试使用指向s3存储桶中的依赖项zip的pyfiles,但始终返回“找不到文件" 解决方案 由于EMRFS(基于S3的AWS专有Had ..
发布时间:2020-08-23 02:33:06 Python

与Spark 2.4.0和EMR 5.26.0兼容JSON4S

Spark json4s[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/Js] 在AWS Emr上运行Spark Scala结构化流应用程序时,在解析复杂的json时遇到上述错误. 解决方案 它看起来像是二进制兼容性错误...能否请您检查依赖树中是否存在json4s工件的不 ..
发布时间:2020-08-23 02:32:54 其他开发

在EMR群集上运行的Spark作业. system.exit(0)用于正常完成工作,但仍然无法执行EMR

在火花作业中.我正在使用if file not found system.exit(0).它应该可以正常完成工作.在本地已成功完成.但是当我运行EMR时.步骤失败. 解决方案 EMR使用 ApplicationMaster 类. > 浏览ApplicationMaster代码可以解释尝试执行System.exit()时发生的情况.用户应用程序在关闭钩子,它会看到您的代码未成功完成,并将其 ..
发布时间:2020-08-23 02:31:51 其他开发

带AWS Glue的Spark Catalog:找不到数据库

我已经使用“胶水数据"目录创建了一个EMR集群.调用spark-shell时,我可以通过 成功列出存储在Glue数据库中的表 spark.catalog.setCurrentDatabase("test") spark.catalog.listTables 但是,当我通过spark-submit提交工作时,出现致命错误 ERROR ApplicationMaster: User cl ..
发布时间:2020-08-23 02:31:44 其他开发

关于AWS EMR Spark上Jupyterhub的Livy会话

我的客户在AWS EMR上的Jupyterhub上配置了AD连接器,以便可以通过AD在jupyterhub上对不同的用户进行身份验证.当前的理解是,当不同的用户通过Jupyterhub上的Jupyter笔记本向共享的基础EMR火花引擎提交其火花作业时,该火花作业将通过Livy提交给火花引擎.每个Livy会话都会映射到一个相关的spark会话(这是我目前的理解,如果我错了,请纠正我) 问题是, ..
发布时间:2020-08-23 02:31:39 其他开发

如何在Java代码中使用S3DistCp

我想以语法方式将作业的输出从EMR集群复制到Amazon S3. 如何在Java代码中使用S3DistCp进行相同操作. 解决方案 hadoop ToolRunner可以运行它. 下面是用法示例: import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; impor ..
发布时间:2020-08-23 02:30:33 Java开发

EMR_EC2_DefaultRole和EMR_DefaultRole有什么区别?

aws emr启动后,我注意到它具有ec2实例配置文件EMR_EC2_DefaultRole和emr角色EMR_DefaultRole,它们具有相似的权限,那么EMR_EC2_DefaultRole和EMR_DefaultRole有什么区别? 解决方案 根据文档: EMR角色 EMR角色定义了在供应资源并执行在集群内运行的EC2实例的上下文中未执行的其他服务级别任务时,Amaz ..
发布时间:2020-08-23 02:30:29 其他开发

AWS EMR Spark:错误:无法从JAR加载主类

我正在尝试使用AWS控制台将Spark作业提交到AWS EMR集群.却失败了: Cannot load main class from JAR.当我在AWS EMR控制台->添加步骤的Arguments选项中将主类指定为--class时,作业成功运行. 在本地计算机上,当未按以下方式指定主类时,该作业似乎可以正常工作: ./spark-submit /home/astro/sp ..
发布时间:2020-08-23 02:30:26 其他开发