elastic-map-reduce相关内容

用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据. 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat,但找不到.我不熟悉 Dynamo DB,所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的实现,你能分享一下吗? 解决方案 经过大量搜索,我在 Amazon 的 ..

由于任务尝试未能报告状态 600 秒,reduce 失败.杀戮!解决方案?

作业的reduce阶段失败: 失败的减少任务超过了允许的限制. 每个任务失败的原因是: 任务尝试_201301251556_1637_r_000005_0 在 600 秒内未能报告状态.杀戮! 问题详解: Map 阶段接收格式为:time、rid、data 的每条记录. 数据的格式为:数据元素及其计数. eg: a,1 b,4 c,7 对应一条记录的数据. ..
发布时间:2022-01-14 08:07:25 Java开发

如何指定映射配置和使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 的 java 选项?

我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置,例如 ma​​pred.task.timeout 、 mapred.min.split.size 等. 当我们使用ruby或python等外部脚本语言运行时,我们可以通过以下方式来指定这些配置: ruby elastic-mapreduce -j --stream --step-name "mystream ..
发布时间:2022-01-14 08:06:51 Java开发

在 master 和 reduce 之间共享数据

我需要使用所有 reduce 任务的结果来执行聚合.基本上,reduce 任务找到总和和计数以及一个值.我需要将所有的总和和计数相加并找到最终平均值. 我尝试在 reduce 中使用 conf.setInt.但是当我尝试从主函数访问它时它失败了 类主{公共静态类 MyReducer扩展化简器{public void reduce(Te ..
发布时间:2022-01-13 23:56:03 其他开发

hadoop 将 \r\n 转换为 \n 并打破 ARC 格式

我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码,并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我像自己一样调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器.rb 它按预期工作. 似乎 hadoop 会自动看到文件具有 .gz 扩展名并在将 ..
发布时间:2022-01-13 23:30:07 其他开发

重复使用 Amazon Elastic MapReduce 实例

我使用 Amazon Elastic MapReduce 尝试了一个简单的 Map/Reduce 任务,只用了 3 分钟即可完成任务.是否可以重复使用同一个实例来运行另一个任务. 即使我只使用了 3 分钟的实例,亚马逊也会收取 1 小时 的费用,所以我想用剩余的 57 分钟来运行其他几个任务. 解决方案 答案是肯定的. 以下是使用命令行客户端的方法: 当您创建实例时传递 ..
发布时间:2022-01-13 23:17:03 其他开发

使用 boto 设置 hadoop 参数?

我正在尝试在我的 Amazon Elastic MapReduce 作业中启用错误输入跳过.我正在遵循此处描述的绝妙食谱: http://devblog.factual.com/practical-hadoop-streaming-dealing-with-brittle-code 上面的链接说我需要以某种方式在 EMR 作业上设置以下配置参数: mapred.skip.mode.e ..
发布时间:2021-11-27 10:11:48 Python

将 Hive 表导出到 S3 存储桶

我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表,并从一个 CSV 文件中填充它,如下所示: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING)行格式分隔以 '\t' 结尾的字段;加载数据本地输入路径'/home/hadoop/file.csv' OVERWRITE INTO TABLE csvimp ..
发布时间:2021-11-27 10:10:37 其他开发

在 AWS EC2 上安排作业

我有一个在 AWS EC2 上运行的网站.我需要创建一个夜间作业来生成站点地图文件并将文件上传到各种浏览器.我正在 AWS 上寻找允许此功能的实用程序.我考虑了以下几点: 1) 向 Web 服务器生成一个请求,触发它执行此任务 我不喜欢这种方法,因为它会占用服务器线程并在主机上使用 CPU 周期 2) 在运行 web 服务器的机器上创建一个 cron 作业来执行这个任务 再 ..

hadoop 将 \r\n 转换为 \n 并破坏 ARC 格式

我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码,并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我自己调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器 它按预期工作. 似乎 hadoop 会自动看到该文件具有 .gz 扩展名并在将其交给映射 ..
发布时间:2021-11-27 10:09:41 其他开发

为什么 Yarn on EMR 不分配所有节点来运行 Spark 作业?

我正在 Amazon Elastic Map Reduce (EMR) 上的 Apache Spark 上运行一项作业.目前我在 emr-4.1.0 上运行,其中包括 Amazon Hadoop 2.6.0 和 Spark 1.5.0. 当我开始作业时,YARN 已正确地将所有工作节点分配给了 spark 作业(当然,其中一个用于驱动程序). 我将神奇的“maximizeResourc ..

重用 Amazon Elastic MapReduce 实例

我使用 Amazon Elastic MapReduce 尝试了一个简单的 Map/Reduce 任务,完成任务只用了 3 分钟.是否可以重用同一个实例来运行另一个任务. 即使我只使用了 3 分钟的实例,亚马逊也会收取 1 小时的费用,所以我想用剩余的 57 分钟来运行其他几个任务. 解决方案 答案是肯定的. 以下是使用命令行客户端的方法: 当您创建实例时,传递 --al ..
发布时间:2021-11-27 10:07:07 其他开发

将 AWS Dynamodb 备份到 S3

已在 亚马逊文档 http://aws.amazon.com/dynamodb/ 以及其他地方,您可以使用 Elastic Map Reduce 备份您的 dynamodb 表, 我对这如何工作有一个大致的了解,但我找不到任何关于此的指南或教程, 所以我的问题是如何自动执行 dynamodb 备份(使用 EMR)? 到目前为止,我认为我需要创建一个“流"作业,其中包含从 dynamo ..
发布时间:2021-11-27 09:31:18 其他开发

AWS EMR PySpark连接到mysql

我正在尝试通过pyspark使用jdbc连接到mysql.我能够在EMR之外做到这一点.但是当我尝试使用EMR时,pyspark无法正确启动. 我在机器上使用的命令 pyspark --conf spark.executor.extraClassPath=/home/hadoop/mysql-connector-java-5.1.38-bin.jar --driver-class-pa ..
发布时间:2021-02-11 19:29:50 数据库