amazon-emr 第7页 - IT屋-程序员软件开发技术分享社区

Spark中止火花作业时打开的文件太多

在我的应用程序中，我正在读取40 GB的文本文件，该文件总共分布在188个文件中. 我分割了这些文件，并使用rdd对在火花中每行创建了xml文件. 对于40 GB的输入，它将创建数百万个小型xml文件，这是我的要求. 一切正常，但是当spark将文件保存在S3中时，它将引发错误，并且作业失败. 这是我得到的例外由以下原因引起:java.nio.file.FileSystemExcep ..

发布时间：2020-08-23 02:37:56 apache-spark amazon-s3 apache-spark-sql hadoop2 amazon-emr 其他开发

将DAG转换为任务的巨大延迟

这是我的步骤: 将spark应用提交到EMR集群驱动程序启动，我可以看到Spark-ui(尚未创建阶段) 驱动程序从s3读取约3000个零件的orc文件，进行一些转换并将其保存回s3 执行保存应该在spark-ui中创建一些阶段，但是这些阶段要花很长时间才能出现在spark-ui中出现阶段并开始执行为什么我在第4步中遇到了这么大的延迟?在这段时间内，集群显然正在等待，CP ..

发布时间：2020-08-23 02:36:50 apache-spark amazon-emr apache-spark-2.0 其他开发

如何使用"-files"指定多个文件?在Amazon CLI中用于EMR?

我正在尝试通过amazon CLI启动amazon集群，但是我有点困惑应该如何指定多个文件.我目前的电话如下: aws emr create-cluster --steps Type=STREAMING,Name='Intra country development',ActionOnFailure=CONTINUE,Args=[-files,s3://betaestimationtest/ ..

发布时间：2020-08-23 02:36:47 hadoop amazon-web-services amazon-emr aws-cli 其他开发

如何在Hive中包含jar(Amazon Hadoop env)

我需要在Hive中包含较新的protobuf jar(高于2.5.0).无论如何，无论我把罐子放在哪里-它都被推到类路径的末尾.我如何确保该jar位于Hive的类路径的开头? 解决方案要将您自己的jar添加到Hive类路径中，使其包含在类路径的开头，并且不会被某些hadoop jar重载，则需要设置以下Env变量- 导出HADOOP_USER_CLASSPATH_FIRST = t ..

发布时间：2020-08-23 02:36:40 hadoop hive amazon-emr 其他开发

AWS数据管道EmrCluster的安全配置字段

我通过AWS管理控制台上的常规EMR群集向导创建了一个AWS EMR群集，并且能够选择一个安全配置，例如，在导出CLI命令--security-configuration 'mySecurityConfigurationValue'时. 我现在需要通过AWS Data Pipeline创建一个类似的EMR，但是我看不到任何可以指定此安全配置字段的选项. 我看到的唯一类似字段是EmrMa ..

发布时间：2020-08-23 02:35:32 amazon-web-services amazon-emr amazon-data-pipeline 其他开发

使用Lambda将文件从S3复制到EMR本地

我需要使用Lambda以编程方式将文件从S3移到EMR的本地目录/home/hadoop. S3DistCp复制到HDFS.然后，我登录EMR并在命令行上运行CopyToLocal hdfs命令，以将文件获取到/home/hadoop. 是否存在使用Lambda中的boto3从S3复制到Emr的本地目录的编程方式? 解决方案我编写了一个测试Lambda函数，以将作业步骤提交给 ..

发布时间：2020-08-23 02:33:26 amazon-s3 aws-lambda copy amazon-emr 其他开发

EMR创建任务和核心节点不能指定为“最大按需".现货定价

core_instance_group { instance_type = "c4.large" instance_count = 1 ebs_config { size = "40" type = "gp2" volumes_per_instance = 1 } ..

发布时间：2020-08-23 02:33:23 amazon-web-services terraform amazon-emr terraform-provider-aws 其他开发

无法在pyspark中应用pandas_udf

我正在尝试在附加到AWS EMR实例的jupyter笔记本上进行一些与pyspark相关的实验.我有一个spark数据框，它从s3读取数据，然后过滤掉一些东西.使用df1.printSchema()输出打印模式，如下所示: root |-- idvalue: string (nullable = true) |-- locationaccuracyhorizontal: float (n ..

发布时间：2020-08-23 02:33:19 python apache-spark pyspark amazon-emr Python

从EMR迁移到AWS Glue后在Spark SQL中找不到表

我在EMR上有Spark作业，并且将EMR配置为对Hive和Spark元数据使用Glue目录. 我创建了Hive外部表，它们出现在Glue目录中，我的Spark作业可以在Spark SQL中像spark.sql("select * from hive_table ...") 一样引用它们. 现在，当我尝试在Glue作业中运行相同的代码时，它将失败，并显示“找不到表"错误.看来Glue作业 ..

发布时间：2020-08-23 02:33:15 apache-spark amazon-emr aws-glue 其他开发

AWS EMR Spark:写入S3时出错-IllegalArgumentException-无法从空字符串创建路径

我已经很长时间试图解决这个问题了……不知道为什么要得到这个?仅供参考，我正在AWS EMR集群上的集群上运行Spark.我调试了一下，清楚地看到了提供的目标路径……类似于s3://my-bucket-name/. spark作业将创建orc文件，并在创建分区后将它们写入:date=2017-06-10.有什么想法吗? 17/07/08 22:48:31 ERROR ApplicationMa ..

发布时间：2020-08-23 02:33:11 amazon-web-services apache-spark amazon-s3 amazon-emr 其他开发

使用EMRFS(s3存储桶)创建EMR 5.3.0作为存储

我正在尝试使用EMRFS(S3存储桶)作为存储来创建EMR 5.3.0. 请为此提供一般指导. 当前我正在使用以下命令创建InstanceType = m4.2xlarge的EMR 5.3.0.虽然工作正常，但是使用EMRFS作为存储却无法做到 aws emr create-cluster --name "DEMAPAUR001" --release-label emr-5.3.0 - ..

发布时间：2020-08-23 02:33:08 amazon-web-services amazon-s3 emr amazon-emr 其他开发

EMR如何处理输入和输出的s3存储桶?

我正在整理一个EMR群集，并创建了在EMR文档中，但是我应该如何上传数据并从中读取数据?在我的spark提交步骤中，我说使用s3://myclusterbucket/scripts/script.py的脚本名称是否输出不会自动上传到s3?如何处理依赖关系?我尝试使用指向s3存储桶中的依赖项zip的pyfiles，但始终返回“找不到文件" 解决方案由于EMRFS(基于S3的AWS专有Had ..

发布时间：2020-08-23 02:33:06 python apache-spark amazon-emr Python

与Spark 2.4.0和EMR 5.26.0兼容JSON4S

Spark json4s[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/Js] 在AWS Emr上运行Spark Scala结构化流应用程序时，在解析复杂的json时遇到上述错误. 解决方案它看起来像是二进制兼容性错误...能否请您检查依赖树中是否存在json4s工件的不 ..

发布时间：2020-08-23 02:32:54 scala apache-spark amazon-emr json4s 其他开发

在EMR群集上运行的Spark作业. system.exit(0)用于正常完成工作，但仍然无法执行EMR

在火花作业中.我正在使用if file not found system.exit(0).它应该可以正常完成工作.在本地已成功完成.但是当我运行EMR时.步骤失败. 解决方案 EMR使用 ApplicationMaster 类. > 浏览ApplicationMaster代码可以解释尝试执行System.exit()时发生的情况.用户应用程序在关闭钩子，它会看到您的代码未成功完成，并将其 ..

发布时间：2020-08-23 02:31:51 apache-spark amazon-emr 其他开发

带AWS Glue的Spark Catalog:找不到数据库

我已经使用“胶水数据"目录创建了一个EMR集群.调用spark-shell时，我可以通过成功列出存储在Glue数据库中的表 spark.catalog.setCurrentDatabase("test") spark.catalog.listTables 但是，当我通过spark-submit提交工作时，出现致命错误 ERROR ApplicationMaster: User cl ..

发布时间：2020-08-23 02:31:44 apache-spark amazon-emr aws-glue 其他开发

关于AWS EMR Spark上Jupyterhub的Livy会话

我的客户在AWS EMR上的Jupyterhub上配置了AD连接器，以便可以通过AD在jupyterhub上对不同的用户进行身份验证.当前的理解是，当不同的用户通过Jupyterhub上的Jupyter笔记本向共享的基础EMR火花引擎提交其火花作业时，该火花作业将通过Livy提交给火花引擎.每个Livy会话都会映射到一个相关的spark会话(这是我目前的理解，如果我错了，请纠正我) 问题是， ..

发布时间：2020-08-23 02:31:39 apache-spark amazon-emr 其他开发

如何在Java代码中使用S3DistCp

我想以语法方式将作业的输出从EMR集群复制到Amazon S3. 如何在Java代码中使用S3DistCp进行相同操作. 解决方案 hadoop ToolRunner可以运行它. 下面是用法示例: import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; impor ..

发布时间：2020-08-23 02:30:33 java hadoop amazon-s3 amazon-emr Java开发

EMR_EC2_DefaultRole和EMR_DefaultRole有什么区别?

aws emr启动后，我注意到它具有ec2实例配置文件EMR_EC2_DefaultRole和emr角色EMR_DefaultRole，它们具有相似的权限，那么EMR_EC2_DefaultRole和EMR_DefaultRole有什么区别? 解决方案根据文档: EMR角色 EMR角色定义了在供应资源并执行在集群内运行的EC2实例的上下文中未执行的其他服务级别任务时，Amaz ..

发布时间：2020-08-23 02:30:29 amazon-web-services amazon-emr 其他开发

AWS EMR Spark:错误:无法从JAR加载主类

我正在尝试使用AWS控制台将Spark作业提交到AWS EMR集群.却失败了: Cannot load main class from JAR.当我在AWS EMR控制台->添加步骤的Arguments选项中将主类指定为--class时，作业成功运行. 在本地计算机上，当未按以下方式指定主类时，该作业似乎可以正常工作: ./spark-submit /home/astro/sp ..

发布时间：2020-08-23 02:30:26 apache-spark amazon-emr amazon-data-pipeline 其他开发

Spark Streaming 1.6.1不适用于Kinesis ASL 1.6.1和ASL 2.0.0-Preview

我正在尝试使用Kinesis在EMR上运行火花流作业.带有Kinesis ASL 1.6.1的Spark 1.6.1写一个简单的单词计数示例. org.apache.spark spark-streaming-kinesis-asl_2.10 ..

发布时间：2020-08-23 02:28:20 spark-streaming amazon-emr amazon-kinesis 其他开发

amazon-emr相关内容