elastic-map-reduce - IT屋-程序员软件开发技术分享社区

用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据. 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat，但找不到.我不熟悉 Dynamo DB，所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的实现，你能分享一下吗? 解决方案经过大量搜索，我在 Amazon 的 ..

发布时间：2022-01-15 17:32:59 hadoop amazon-web-services mapreduce amazon-dynamodb elastic-map-reduce 其他开发

由于任务尝试未能报告状态 600 秒，reduce 失败.杀戮！解决方案?

作业的reduce阶段失败: 失败的减少任务超过了允许的限制. 每个任务失败的原因是: 任务尝试_201301251556_1637_r_000005_0 在 600 秒内未能报告状态.杀戮！问题详解: Map 阶段接收格式为:time、rid、data 的每条记录. 数据的格式为:数据元素及其计数. eg: a,1 b,4 c,7 对应一条记录的数据. ..

发布时间：2022-01-14 08:07:25 java eclipse hadoop mapreduce elastic-map-reduce Java开发

如何指定映射配置和使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 的 java 选项?

我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置，例如 mapred.task.timeout 、 mapred.min.split.size 等. 当我们使用ruby或python等外部脚本语言运行时，我们可以通过以下方式来指定这些配置: ruby elastic-mapreduce -j --stream --step-name "mystream ..

发布时间：2022-01-14 08:06:51 java hadoop mapreduce elastic-map-reduce emr Java开发

在 master 和 reduce 之间共享数据

我需要使用所有 reduce 任务的结果来执行聚合.基本上，reduce 任务找到总和和计数以及一个值.我需要将所有的总和和计数相加并找到最终平均值. 我尝试在 reduce 中使用 conf.setInt.但是当我尝试从主函数访问它时它失败了类主{公共静态类 MyReducer扩展化简器{public void reduce(Te ..

发布时间：2022-01-13 23:56:03 mapreduce elastic-map-reduce 其他开发

hadoop 将 \r\n 转换为 \n 并打破 ARC 格式

我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码，并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我像自己一样调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器.rb 它按预期工作. 似乎 hadoop 会自动看到文件具有 .gz 扩展名并在将 ..

发布时间：2022-01-13 23:30:07 hadoop mapreduce elastic-map-reduce 其他开发

我的减速器出现以下异常: EMFILE: 打开的文件太多在 org.apache.hadoop.io.nativeio.NativeIO.open(本机方法)在 org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161)在 org.apache.hadoop.mapred.TaskLog.writeToInd ..

发布时间：2022-01-13 23:28:36 hadoop mapreduce elastic-map-reduce emr 其他开发

重复使用 Amazon Elastic MapReduce 实例

我使用 Amazon Elastic MapReduce 尝试了一个简单的 Map/Reduce 任务，只用了 3 分钟即可完成任务.是否可以重复使用同一个实例来运行另一个任务. 即使我只使用了 3 分钟的实例，亚马逊也会收取 1 小时的费用，所以我想用剩余的 57 分钟来运行其他几个任务. 解决方案答案是肯定的. 以下是使用命令行客户端的方法: 当您创建实例时传递 ..

发布时间：2022-01-13 23:17:03 amazon-ec2 mapreduce elastic-map-reduce 其他开发

使用 boto 设置 hadoop 参数?

我正在尝试在我的 Amazon Elastic MapReduce 作业中启用错误输入跳过.我正在遵循此处描述的绝妙食谱: http://devblog.factual.com/practical-hadoop-streaming-dealing-with-brittle-code 上面的链接说我需要以某种方式在 EMR 作业上设置以下配置参数: mapred.skip.mode.e ..

发布时间：2021-11-27 10:11:48 python boto elastic-map-reduce Python

从 Hadoop 中删除文件/文件夹

我在分析日志文件的数据管道内运行 EMR 活动，当我的管道失败时出现以下错误: 线程“main"org.apache.hadoop.mapred.FileAlreadyExistsException 中的异常:输出目录 hdfs://10.208.42.127:9000/home/hadoop/temp-output-s3copy 已经存在在 org.apache.hadoop.mapred.F ..

发布时间：2021-11-27 10:11:04 hadoop amazon-web-services amazon-s3 elastic-map-reduce 其他开发

将 Hive 表导出到 S3 存储桶

我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表，并从一个 CSV 文件中填充它，如下所示: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING)行格式分隔以 '\t' 结尾的字段；加载数据本地输入路径'/home/hadoop/file.csv' OVERWRITE INTO TABLE csvimp ..

发布时间：2021-11-27 10:10:37 amazon-s3 hive elastic-map-reduce emr 其他开发

在 AWS EC2 上安排作业

我有一个在 AWS EC2 上运行的网站.我需要创建一个夜间作业来生成站点地图文件并将文件上传到各种浏览器.我正在 AWS 上寻找允许此功能的实用程序.我考虑了以下几点: 1) 向 Web 服务器生成一个请求，触发它执行此任务我不喜欢这种方法，因为它会占用服务器线程并在主机上使用 CPU 周期 2) 在运行 web 服务器的机器上创建一个 cron 作业来执行这个任务再 ..

发布时间：2021-11-27 10:10:08 amazon-ec2 amazon-web-services cron jobs elastic-map-reduce 其他开发

hadoop 将 \r\n 转换为 \n 并破坏 ARC 格式

我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码，并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我自己调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器它按预期工作. 似乎 hadoop 会自动看到该文件具有 .gz 扩展名并在将其交给映射 ..

发布时间：2021-11-27 10:09:41 hadoop mapreduce elastic-map-reduce 其他开发

EMR 中打开的文件太多

我的减速器出现以下异常: EMFILE:打开的文件太多在 org.apache.hadoop.io.nativeio.NativeIO.open(本机方法)在 org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161)在 org.apache.hadoop.mapred.TaskLog.writeToInde ..

发布时间：2021-11-27 10:09:16 hadoop mapreduce elastic-map-reduce emr 其他开发

如何在 Elastic MapReduce 上的 Hadoop 2.4.0 中为每个节点设置精确的最大并发运行任务数

根据http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-sumption-gotchas/，确定每个节点并发运行任务数的公式为: min (yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemana ..

发布时间：2021-11-27 10:09:04 amazon-web-services hadoop-streaming elastic-map-reduce hadoop-yarn hadoop2 其他开发

为什么 Yarn on EMR 不分配所有节点来运行 Spark 作业?

我正在 Amazon Elastic Map Reduce (EMR) 上的 Apache Spark 上运行一项作业.目前我在 emr-4.1.0 上运行，其中包括 Amazon Hadoop 2.6.0 和 Spark 1.5.0. 当我开始作业时，YARN 已正确地将所有工作节点分配给了 spark 作业(当然，其中一个用于驱动程序). 我将神奇的“maximizeResourc ..

发布时间：2021-11-27 10:07:50 apache-spark hadoop-yarn emr amazon-emr elastic-map-reduce 其他开发

重用 Amazon Elastic MapReduce 实例

我使用 Amazon Elastic MapReduce 尝试了一个简单的 Map/Reduce 任务，完成任务只用了 3 分钟.是否可以重用同一个实例来运行另一个任务. 即使我只使用了 3 分钟的实例，亚马逊也会收取 1 小时的费用，所以我想用剩余的 57 分钟来运行其他几个任务. 解决方案答案是肯定的. 以下是使用命令行客户端的方法: 当您创建实例时，传递 --al ..

发布时间：2021-11-27 10:07:07 amazon-ec2 mapreduce elastic-map-reduce 其他开发

将 AWS Dynamodb 备份到 S3

已在亚马逊文档 http://aws.amazon.com/dynamodb/ 以及其他地方，您可以使用 Elastic Map Reduce 备份您的 dynamodb 表，我对这如何工作有一个大致的了解，但我找不到任何关于此的指南或教程，所以我的问题是如何自动执行 dynamodb 备份(使用 EMR)? 到目前为止，我认为我需要创建一个“流"作业，其中包含从 dynamo ..

发布时间：2021-11-27 09:31:18 amazon-s3 backup amazon-dynamodb elastic-map-reduce 其他开发

在 Amazon EMR 上从 java 使用 hbase 时遇到问题

所以我尝试使用我作为 MapReduce 步骤启动的自定义 jar 在 Amazon ec2 上查询我的 hbase 集群.我是我的 jar(在 map 函数内)我这样调用 Hbase: public void map( Text key, BytesWritable value, Context contex ) throws IOException, InterruptedException ..

发布时间：2021-11-15 00:01:10 hadoop amazon-web-services hbase apache-zookeeper elastic-map-reduce 其他开发

AWS EMR S3DistCp:auxService:mapreduce_shuffle不存在

我已通过SSH连接到AWS EMR v5.4.0实例，我想调用s3distcp.此链接演示了如何设置emr步骤来调用它，但是当我运行它时，出现以下错误: 容器的容器启动失败_1492469375740_0001_01_000002:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:auxService:mapreduce_s ..

发布时间：2021-04-03 19:10:40 hadoop elastic-map-reduce 其他开发

AWS EMR PySpark连接到mysql

我正在尝试通过pyspark使用jdbc连接到mysql.我能够在EMR之外做到这一点.但是当我尝试使用EMR时，pyspark无法正确启动. 我在机器上使用的命令 pyspark --conf spark.executor.extraClassPath=/home/hadoop/mysql-connector-java-5.1.38-bin.jar --driver-class-pa ..

发布时间：2021-02-11 19:29:50 mysql jdbc apache-spark pyspark elastic-map-reduce 数据库

elastic-map-reduce相关内容