amazon-emr相关内容

如何使用 boto 启动和配置 EMR 集群

我正在尝试使用 boto 启动集群并运行作业.我发现了很多创建 job_flows 的例子.但我不能为我的生活,找到一个例子来说明: 如何定义要使用的集群(通过 clusted_id) 如何配置启动集群(例如,如果我想为某些任务节点使用 Spot 实例) 我错过了什么吗? 解决方案 Boto 和底层 EMR API 目前正在混合使用术语cluster 和 job flow,以 ..
发布时间:2021-11-27 10:10:19 Python

EMR/Spark 的 S3 写入时间极慢

我写信是想看看是否有人知道如何通过在 EMR 中运行的 Spark 加快 S3 写入时间? 我的 Spark 作业需要 4 个多小时才能完成,但是集群仅在前 1.5 小时内处于负载状态. 我很好奇 Spark 一直在做什么.我查看了日志,发现了许多 s3 mv 命令,每个文件一个.然后直接查看 S3,我看到我的所有文件都在 _temporary 目录中. 其次,我担心我的集群成本 ..

你如何用 JSON 数据制作一个 HIVE 表?

我想从一些 JSON 数据(嵌套)中创建一个 Hive 表并对其运行查询?这甚至可能吗? 我已经将 JSON 文件上传到 S3 并启动了一个 EMR 实例,但我不知道在 hive 控制台中输入什么才能使 JSON 文件成为 Hive 表? 有没有人有一些示例命令可以帮助我入门,我在 Google 上找不到任何有用的东西... 解决方案 您需要使用 JSON serde 以便 H ..
发布时间:2021-11-27 10:09:49 其他开发

hadoop 从 hdfs 复制到 S3

我已经在 Amazon EMR 上成功完成了 mahout 矢量化工作(使用 在 Elastic MapReduce 上的 Mahout 作为参考).现在我想将结果从 HDFS 复制到 S3(以便在将来的集群中使用它). 为此,我使用了 hadoop distcp:den@aws:~$ elastic-mapreduce --jar s3://elasticmapreduce/samples/d ..
发布时间:2021-11-27 10:09:24 其他开发

AWS CLI EMR 获取主节点实例 ID 并标记它

我想自动化集群的运行,并且可以使用标签来获取 EC2 实例的属性,例如它的实例 ID. https://docs 上的文档.aws.amazon.com/cli/latest/reference/emr/create-cluster.html 指出 --标签(列表) 与集群关联的标签列表,适用于每个亚马逊集群中的 EC2 实例.标签是键值对,包括最多 128 个字符的必需密钥字符 ..
发布时间:2021-11-27 10:08:55 其他开发

使用 Airflow dag run 创建 EMR 集群,任务完成后,EMR 将终止

我有 Airflow 作业,它们在 EMR 集群上运行良好.我需要的是,假设我有 4 个需要 EMR 集群的气流作业,假设需要 20 分钟才能完成任务.为什么我们不能在 DAG 运行时创建 EMR 集群,一旦作业完成,它将终止创建的 EMR 集群. 解决方案 当然,这将是最有效地利用资源.让我警告你:这里面有很多细节;我会尽量列出尽可能多的内容.我鼓励您添加自己的综合答案,列出您遇到的任何 ..
发布时间:2021-11-27 10:08:44 其他开发

EMR 主节点是否知道其集群 ID?

我希望能够创建 EMR 集群,并让这些集群将消息发送回某个中央队列.为了使其工作,我需要在每个主节点上运行某种代理.这些代理中的每一个都必须在此消息中标识自己,以便接收者知道该消息是关于哪个集群的. 主节点是否知道自己的ID(j-****************)?如果不是,那么是否还有其他一些识别信息可以让消息接收者推断出此 ID? 我查看了 /home/hadoop/conf 中的 ..
发布时间:2021-11-27 10:08:33 其他开发

Amazon Elastic MapReduce - 从 S3 到 DynamoDB 的大量插入非常慢

我需要将大约 1.3 亿个项目(总共 5 Gb 以上)初始上传到单个 DynamoDB 表中.在我使用 API 上传它们时遇到问题申请,我决定改用 EMR. 长话短说,即使在最强大的集群上,导入非常平均的(对于 EMR)数据量也需要很长时间,花费数百小时而进展甚微(处理测试 2Mb 数据位大约需要 20 分钟,并且没有无法在 12 小时内完成测试 700Mb 文件). 我已经联系了 A ..
发布时间:2021-11-27 10:08:14 其他开发

AWS EMR 上的奇怪火花错误

我有一个非常简单的 PySpark 脚本,它从 S3 上的一些镶木地板数据创建一个数据框,然后调用 count() 方法并打印出记录数. 我在 AWS EMR 集群上运行脚本,我看到以下奇怪的警告信息: 17/12/04 14:20:26 警告 ServletHandler:javax.servlet.ServletException: java.util.NoSuchElementExc ..
发布时间:2021-11-27 10:08:05 其他开发

如何从 Lambda 函数在亚马逊 EMR 上执行 spark 提交?

我想根据 S3 上的文件上传事件在 AWS EMR 集群上执行 spark 提交作业.我正在使用 AWS Lambda 函数来捕获事件,但我不知道如何通过 Lambda 函数在 EMR 集群上提交 spark 提交作业. 我搜索的大多数答案都谈到在 EMR 集群中添加一个步骤.但我不知道我是否可以在添加的步骤中添加添加任何步骤来触发“spark submit --with args". ..

为什么 Yarn on EMR 不分配所有节点来运行 Spark 作业?

我正在 Amazon Elastic Map Reduce (EMR) 上的 Apache Spark 上运行一项作业.目前我在 emr-4.1.0 上运行,其中包括 Amazon Hadoop 2.6.0 和 Spark 1.5.0. 当我开始作业时,YARN 已正确地将所有工作节点分配给了 spark 作业(当然,其中一个用于驱动程序). 我将神奇的“maximizeResourc ..

Amazon EC2 与 Amazon EMR

我在 Hive 中实现了一个任务.目前它在我的单节点集群上运行良好.现在我计划在 AWS 上部署它. 我对 AWS 一无所知.如果我打算部署它,我应该选择 Amazon EC2 还是 Amazon EMR? 我想提高我的任务的表现.哪一个对我来说更好更可靠?如何接近他们?我听说我们也可以像在 AWS 上一样注册我们的 VM 设置.可能吗? 请尽快给我推荐. 非常感谢. ..
发布时间:2021-11-27 10:07:17 其他开发

“容器因超出内存限制而被 YARN 杀死.已使用 10.4 GB 的 10.4 GB 物理内存"在具有 75GB 内存的 EMR 集群上

我正在 AWS EMR 上运行一个 5 节点 Spark 集群,每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件,最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件,但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost ..
发布时间:2021-11-27 10:06:47 其他开发

在 Spark 中处理大的 gzip 压缩文件

我有一个来自 s3 的大(大约 85 GB 压缩)gzipped 文件,我试图在 AWS EMR 上使用 Spark 处理它(现在有一个 m4.xlarge 主实例和两个 m4.10xlarge 核心实例,每个实例都有 100 GBEBS 体积).我知道 gzip 是一种不可拆分的文件格式,并且 我 看过 它a> 建议应该对压缩文件重新分区,因为Spark 最初给出了一个带有一个分区的 RDD.然 ..
发布时间:2021-11-27 10:06:36 其他开发

指定从 Hive 插入生成的文件的最小数量

我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似,但生成的文件数量各不相同,通常在 6 到 8 个之间,但有时它只会创建一个大文件.我重新运行了几次查询,以防万一文件数量碰巧受到集群中节点可用性的影响,但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大 ..
发布时间:2021-11-27 10:06:25 其他开发