amazon-emr 第2页 - IT屋-程序员软件开发技术分享社区

如何使用 boto 启动和配置 EMR 集群

我正在尝试使用 boto 启动集群并运行作业.我发现了很多创建 job_flows 的例子.但我不能为我的生活，找到一个例子来说明: 如何定义要使用的集群(通过 clusted_id) 如何配置启动集群(例如，如果我想为某些任务节点使用 Spot 实例) 我错过了什么吗? 解决方案 Boto 和底层 EMR API 目前正在混合使用术语cluster 和 job flow，以 ..

EMR/Spark 的 S3 写入时间极慢

我写信是想看看是否有人知道如何通过在 EMR 中运行的 Spark 加快 S3 写入时间? 我的 Spark 作业需要 4 个多小时才能完成，但是集群仅在前 1.5 小时内处于负载状态. 我很好奇 Spark 一直在做什么.我查看了日志，发现了许多 s3 mv 命令，每个文件一个.然后直接查看 S3，我看到我的所有文件都在 _temporary 目录中. 其次，我担心我的集群成本 ..

发布时间：2021-11-27 10:09:59 amazon-web-services apache-spark amazon-s3 amazon-emr 其他开发

你如何用 JSON 数据制作一个 HIVE 表?

我想从一些 JSON 数据(嵌套)中创建一个 Hive 表并对其运行查询?这甚至可能吗? 我已经将 JSON 文件上传到 S3 并启动了一个 EMR 实例，但我不知道在 hive 控制台中输入什么才能使 JSON 文件成为 Hive 表? 有没有人有一些示例命令可以帮助我入门，我在 Google 上找不到任何有用的东西... 解决方案您需要使用 JSON serde 以便 H ..

发布时间：2021-11-27 10:09:49 json hadoop hive amazon-emr emr 其他开发

aws:EMR 集群失败“错误用户数据:尝试获取用户数据时遇到错误"；在提交火花作业

已成功启动 aws EMR 集群，但任何提交均失败: 19/07/30 08:37:42 ERROR UserData:尝试获取用户数据时遇到错误java.io.IOException:无法读取文件“/var/aws/emr/userData.json"在 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.commons.io.FileUtils.ope ..

发布时间：2021-11-27 10:09:33 amazon-web-services apache-spark amazon-emr 其他开发

hadoop 从 hdfs 复制到 S3

我已经在 Amazon EMR 上成功完成了 mahout 矢量化工作(使用在 Elastic MapReduce 上的 Mahout 作为参考).现在我想将结果从 HDFS 复制到 S3(以便在将来的集群中使用它). 为此，我使用了 hadoop distcp:den@aws:~$ elastic-mapreduce --jar s3://elasticmapreduce/samples/d ..

发布时间：2021-11-27 10:09:24 hadoop amazon-s3 amazon-web-services amazon-emr emr 其他开发

AWS CLI EMR 获取主节点实例 ID 并标记它

我想自动化集群的运行，并且可以使用标签来获取 EC2 实例的属性，例如它的实例 ID. https://docs 上的文档.aws.amazon.com/cli/latest/reference/emr/create-cluster.html 指出 --标签(列表) 与集群关联的标签列表，适用于每个亚马逊集群中的 EC2 实例.标签是键值对，包括最多 128 个字符的必需密钥字符 ..

发布时间：2021-11-27 10:08:55 amazon-web-services aws-cli amazon-emr 其他开发

使用 Airflow dag run 创建 EMR 集群，任务完成后，EMR 将终止

我有 Airflow 作业，它们在 EMR 集群上运行良好.我需要的是，假设我有 4 个需要 EMR 集群的气流作业，假设需要 20 分钟才能完成任务.为什么我们不能在 DAG 运行时创建 EMR 集群，一旦作业完成，它将终止创建的 EMR 集群. 解决方案当然，这将是最有效地利用资源.让我警告你:这里面有很多细节；我会尽量列出尽可能多的内容.我鼓励您添加自己的综合答案，列出您遇到的任何 ..

发布时间：2021-11-27 10:08:44 apache-spark hadoop airflow amazon-emr 其他开发

EMR 主节点是否知道其集群 ID?

我希望能够创建 EMR 集群，并让这些集群将消息发送回某个中央队列.为了使其工作，我需要在每个主节点上运行某种代理.这些代理中的每一个都必须在此消息中标识自己，以便接收者知道该消息是关于哪个集群的. 主节点是否知道自己的ID(j-****************)?如果不是，那么是否还有其他一些识别信息可以让消息接收者推断出此 ID? 我查看了 /home/hadoop/conf 中的 ..

发布时间：2021-11-27 10:08:33 amazon-web-services hadoop amazon-emr 其他开发

如何在 EMR 集群 boostrap 上设置 livy.server.session.timeout?

我正在创建一个 EMR 集群，并使用 jupyter notebook 运行一些 spark 任务.我的任务在执行大约 1 小时后死亡，错误是: 遇到错误:来自 https://xxx.xx.x.xxx:18888/sessions/0/statements/20 的无效状态代码“400"，错误负载:“需求失败:会话未激活." 我的理解是它与 Livy 配置 livy.server.sessi ..

发布时间：2021-11-27 10:08:21 configuration amazon-emr livy 其他开发

Amazon Elastic MapReduce - 从 S3 到 DynamoDB 的大量插入非常慢

我需要将大约 1.3 亿个项目(总共 5 Gb 以上)初始上传到单个 DynamoDB 表中.在我使用 API 上传它们时遇到问题申请，我决定改用 EMR. 长话短说，即使在最强大的集群上，导入非常平均的(对于 EMR)数据量也需要很长时间，花费数百小时而进展甚微(处理测试 2Mb 数据位大约需要 20 分钟，并且没有无法在 12 小时内完成测试 700Mb 文件). 我已经联系了 A ..

发布时间：2021-11-27 10:08:14 amazon-s3 hive amazon-dynamodb amazon-emr 其他开发

AWS EMR 上的奇怪火花错误

我有一个非常简单的 PySpark 脚本，它从 S3 上的一些镶木地板数据创建一个数据框，然后调用 count() 方法并打印出记录数. 我在 AWS EMR 集群上运行脚本，我看到以下奇怪的警告信息: 17/12/04 14:20:26 警告 ServletHandler:javax.servlet.ServletException: java.util.NoSuchElementExc ..

发布时间：2021-11-27 10:08:05 amazon-web-services apache-spark pyspark amazon-emr 其他开发

如何从 Lambda 函数在亚马逊 EMR 上执行 spark 提交?

我想根据 S3 上的文件上传事件在 AWS EMR 集群上执行 spark 提交作业.我正在使用 AWS Lambda 函数来捕获事件，但我不知道如何通过 Lambda 函数在 EMR 集群上提交 spark 提交作业. 我搜索的大多数答案都谈到在 EMR 集群中添加一个步骤.但我不知道我是否可以在添加的步骤中添加添加任何步骤来触发“spark submit --with args". ..

发布时间：2021-11-27 10:07:57 amazon-web-services apache-spark aws-lambda amazon-emr spark-submit 其他开发

为什么 Yarn on EMR 不分配所有节点来运行 Spark 作业?

我正在 Amazon Elastic Map Reduce (EMR) 上的 Apache Spark 上运行一项作业.目前我在 emr-4.1.0 上运行，其中包括 Amazon Hadoop 2.6.0 和 Spark 1.5.0. 当我开始作业时，YARN 已正确地将所有工作节点分配给了 spark 作业(当然，其中一个用于驱动程序). 我将神奇的“maximizeResourc ..

发布时间：2021-11-27 10:07:50 apache-spark hadoop-yarn emr amazon-emr elastic-map-reduce 其他开发

避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键

我在 AWS 数据管道中使用 EMR 活动.此 EMR 活动正在 EMR 集群中运行 hive 脚本.它以 dynamo DB 作为输入并将数据存储在 S3 中. 这是 EMR 活动中使用的 EMR 步骤 s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hi ..

发布时间：2021-11-27 10:07:33 amazon-web-services hadoop amazon-s3 amazon-emr 其他开发

Amazon EC2 与 Amazon EMR

我在 Hive 中实现了一个任务.目前它在我的单节点集群上运行良好.现在我计划在 AWS 上部署它. 我对 AWS 一无所知.如果我打算部署它，我应该选择 Amazon EC2 还是 Amazon EMR? 我想提高我的任务的表现.哪一个对我来说更好更可靠?如何接近他们?我听说我们也可以像在 AWS 上一样注册我们的 VM 设置.可能吗? 请尽快给我推荐. 非常感谢. ..

发布时间：2021-11-27 10:07:17 amazon-ec2 amazon-web-services hive amazon-emr 其他开发

application_ 的申请报告(状态:已接受)永远不会因 Spark Submit 而结束(在 YARN 上使用 Spark 1.2.0)

我正在运行 kinesis plus spark 应用程序https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html 我运行如下 ec2 实例上的命令: ./spark/bin/spark-submit --class org.apache.spark.examples.streaming.mycla ..

发布时间：2021-11-27 10:06:56 apache-spark hadoop-yarn amazon-emr amazon-kinesis 其他开发

“容器因超出内存限制而被 YARN 杀死.已使用 10.4 GB 的 10.4 GB 物理内存"在具有 75GB 内存的 EMR 集群上

我正在 AWS EMR 上运行一个 5 节点 Spark 集群，每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件，最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件，但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost ..

发布时间：2021-11-27 10:06:47 apache-spark emr amazon-emr bigdata 其他开发

在 Spark 中处理大的 gzip 压缩文件

我有一个来自 s3 的大(大约 85 GB 压缩)gzipped 文件，我试图在 AWS EMR 上使用 Spark 处理它(现在有一个 m4.xlarge 主实例和两个 m4.10xlarge 核心实例，每个实例都有 100 GBEBS 体积).我知道 gzip 是一种不可拆分的文件格式，并且我看过它a> 建议应该对压缩文件重新分区，因为Spark 最初给出了一个带有一个分区的 RDD.然 ..

发布时间：2021-11-27 10:06:36 apache-spark gzip amazon-emr 其他开发

指定从 Hive 插入生成的文件的最小数量

我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似，但生成的文件数量各不相同，通常在 6 到 8 个之间，但有时它只会创建一个大文件.我重新运行了几次查询，以防万一文件数量碰巧受到集群中节点可用性的影响，但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大 ..

发布时间：2021-11-27 10:06:25 hive mapreduce hiveql amazon-emr hadoop-partitioning 其他开发

如何从 Airflow 向 EMR 集群提交 Spark 作业?

如何在 EMR 主集群(由 Terraform 创建)和 Airflow 之间建立连接.我在具有相同 SG、VPC 和子网的 AWS EC2 服务器下设置了气流. 我需要解决方案，以便 Airflow 可以与 EMR 对话并执行 Spark 提交. https://aws.amazon.com/blogs/big-data/build-a-concurrent-data-orchest ..

发布时间：2021-11-27 10:06:18 amazon-web-services terraform airflow amazon-emr 其他开发

amazon-emr相关内容