amazon-emr相关内容
我正在尝试使用 boto 启动集群并运行作业.我发现了很多创建 job_flows 的例子.但我不能为我的生活,找到一个例子来说明: 如何定义要使用的集群(通过 clusted_id) 如何配置启动集群(例如,如果我想为某些任务节点使用 Spot 实例) 我错过了什么吗? 解决方案 Boto 和底层 EMR API 目前正在混合使用术语cluster 和 job flow,以
..
我写信是想看看是否有人知道如何通过在 EMR 中运行的 Spark 加快 S3 写入时间? 我的 Spark 作业需要 4 个多小时才能完成,但是集群仅在前 1.5 小时内处于负载状态. 我很好奇 Spark 一直在做什么.我查看了日志,发现了许多 s3 mv 命令,每个文件一个.然后直接查看 S3,我看到我的所有文件都在 _temporary 目录中. 其次,我担心我的集群成本
..
我想从一些 JSON 数据(嵌套)中创建一个 Hive 表并对其运行查询?这甚至可能吗? 我已经将 JSON 文件上传到 S3 并启动了一个 EMR 实例,但我不知道在 hive 控制台中输入什么才能使 JSON 文件成为 Hive 表? 有没有人有一些示例命令可以帮助我入门,我在 Google 上找不到任何有用的东西... 解决方案 您需要使用 JSON serde 以便 H
..
已成功启动 aws EMR 集群,但任何提交均失败: 19/07/30 08:37:42 ERROR UserData:尝试获取用户数据时遇到错误java.io.IOException:无法读取文件“/var/aws/emr/userData.json"在 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.commons.io.FileUtils.ope
..
我已经在 Amazon EMR 上成功完成了 mahout 矢量化工作(使用 在 Elastic MapReduce 上的 Mahout 作为参考).现在我想将结果从 HDFS 复制到 S3(以便在将来的集群中使用它). 为此,我使用了 hadoop distcp:den@aws:~$ elastic-mapreduce --jar s3://elasticmapreduce/samples/d
..
我想自动化集群的运行,并且可以使用标签来获取 EC2 实例的属性,例如它的实例 ID. https://docs 上的文档.aws.amazon.com/cli/latest/reference/emr/create-cluster.html 指出 --标签(列表) 与集群关联的标签列表,适用于每个亚马逊集群中的 EC2 实例.标签是键值对,包括最多 128 个字符的必需密钥字符
..
我有 Airflow 作业,它们在 EMR 集群上运行良好.我需要的是,假设我有 4 个需要 EMR 集群的气流作业,假设需要 20 分钟才能完成任务.为什么我们不能在 DAG 运行时创建 EMR 集群,一旦作业完成,它将终止创建的 EMR 集群. 解决方案 当然,这将是最有效地利用资源.让我警告你:这里面有很多细节;我会尽量列出尽可能多的内容.我鼓励您添加自己的综合答案,列出您遇到的任何
..
我希望能够创建 EMR 集群,并让这些集群将消息发送回某个中央队列.为了使其工作,我需要在每个主节点上运行某种代理.这些代理中的每一个都必须在此消息中标识自己,以便接收者知道该消息是关于哪个集群的. 主节点是否知道自己的ID(j-****************)?如果不是,那么是否还有其他一些识别信息可以让消息接收者推断出此 ID? 我查看了 /home/hadoop/conf 中的
..
我正在创建一个 EMR 集群,并使用 jupyter notebook 运行一些 spark 任务.我的任务在执行大约 1 小时后死亡,错误是: 遇到错误:来自 https://xxx.xx.x.xxx:18888/sessions/0/statements/20 的无效状态代码“400",错误负载:“需求失败:会话未激活." 我的理解是它与 Livy 配置 livy.server.sessi
..
我需要将大约 1.3 亿个项目(总共 5 Gb 以上)初始上传到单个 DynamoDB 表中.在我使用 API 上传它们时遇到问题申请,我决定改用 EMR. 长话短说,即使在最强大的集群上,导入非常平均的(对于 EMR)数据量也需要很长时间,花费数百小时而进展甚微(处理测试 2Mb 数据位大约需要 20 分钟,并且没有无法在 12 小时内完成测试 700Mb 文件). 我已经联系了 A
..
我有一个非常简单的 PySpark 脚本,它从 S3 上的一些镶木地板数据创建一个数据框,然后调用 count() 方法并打印出记录数. 我在 AWS EMR 集群上运行脚本,我看到以下奇怪的警告信息: 17/12/04 14:20:26 警告 ServletHandler:javax.servlet.ServletException: java.util.NoSuchElementExc
..
我想根据 S3 上的文件上传事件在 AWS EMR 集群上执行 spark 提交作业.我正在使用 AWS Lambda 函数来捕获事件,但我不知道如何通过 Lambda 函数在 EMR 集群上提交 spark 提交作业. 我搜索的大多数答案都谈到在 EMR 集群中添加一个步骤.但我不知道我是否可以在添加的步骤中添加添加任何步骤来触发“spark submit --with args".
..
我正在 Amazon Elastic Map Reduce (EMR) 上的 Apache Spark 上运行一项作业.目前我在 emr-4.1.0 上运行,其中包括 Amazon Hadoop 2.6.0 和 Spark 1.5.0. 当我开始作业时,YARN 已正确地将所有工作节点分配给了 spark 作业(当然,其中一个用于驱动程序). 我将神奇的“maximizeResourc
..
我在 AWS 数据管道中使用 EMR 活动.此 EMR 活动正在 EMR 集群中运行 hive 脚本.它以 dynamo DB 作为输入并将数据存储在 S3 中. 这是 EMR 活动中使用的 EMR 步骤 s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hi
..
我在 Hive 中实现了一个任务.目前它在我的单节点集群上运行良好.现在我计划在 AWS 上部署它. 我对 AWS 一无所知.如果我打算部署它,我应该选择 Amazon EC2 还是 Amazon EMR? 我想提高我的任务的表现.哪一个对我来说更好更可靠?如何接近他们?我听说我们也可以像在 AWS 上一样注册我们的 VM 设置.可能吗? 请尽快给我推荐. 非常感谢.
..
我正在运行 kinesis plus spark 应用程序https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html 我运行如下 ec2 实例上的命令: ./spark/bin/spark-submit --class org.apache.spark.examples.streaming.mycla
..
我正在 AWS EMR 上运行一个 5 节点 Spark 集群,每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件,最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件,但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost
..
我有一个来自 s3 的大(大约 85 GB 压缩)gzipped 文件,我试图在 AWS EMR 上使用 Spark 处理它(现在有一个 m4.xlarge 主实例和两个 m4.10xlarge 核心实例,每个实例都有 100 GBEBS 体积).我知道 gzip 是一种不可拆分的文件格式,并且 我 看过 它a> 建议应该对压缩文件重新分区,因为Spark 最初给出了一个带有一个分区的 RDD.然
..
我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似,但生成的文件数量各不相同,通常在 6 到 8 个之间,但有时它只会创建一个大文件.我重新运行了几次查询,以防万一文件数量碰巧受到集群中节点可用性的影响,但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大
..
如何在 EMR 主集群(由 Terraform 创建)和 Airflow 之间建立连接.我在具有相同 SG、VPC 和子网的 AWS EC2 服务器下设置了气流. 我需要解决方案,以便 Airflow 可以与 EMR 对话并执行 Spark 提交. https://aws.amazon.com/blogs/big-data/build-a-concurrent-data-orchest
..