elastic-map-reduce相关内容
我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据. 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat,但找不到.我不熟悉 Dynamo DB,所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的实现,你能分享一下吗? 解决方案 经过大量搜索,我在 Amazon 的
..
作业的reduce阶段失败: 失败的减少任务超过了允许的限制. 每个任务失败的原因是: 任务尝试_201301251556_1637_r_000005_0 在 600 秒内未能报告状态.杀戮! 问题详解: Map 阶段接收格式为:time、rid、data 的每条记录. 数据的格式为:数据元素及其计数. eg: a,1 b,4 c,7 对应一条记录的数据.
..
我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置,例如 mapred.task.timeout 、 mapred.min.split.size 等. 当我们使用ruby或python等外部脚本语言运行时,我们可以通过以下方式来指定这些配置: ruby elastic-mapreduce -j --stream --step-name "mystream
..
我需要使用所有 reduce 任务的结果来执行聚合.基本上,reduce 任务找到总和和计数以及一个值.我需要将所有的总和和计数相加并找到最终平均值. 我尝试在 reduce 中使用 conf.setInt.但是当我尝试从主函数访问它时它失败了 类主{公共静态类 MyReducer扩展化简器{public void reduce(Te
..
我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码,并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我像自己一样调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器.rb 它按预期工作. 似乎 hadoop 会自动看到文件具有 .gz 扩展名并在将
..
我的减速器出现以下异常: EMFILE: 打开的文件太多在 org.apache.hadoop.io.nativeio.NativeIO.open(本机方法)在 org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161)在 org.apache.hadoop.mapred.TaskLog.writeToInd
..
我使用 Amazon Elastic MapReduce 尝试了一个简单的 Map/Reduce 任务,只用了 3 分钟即可完成任务.是否可以重复使用同一个实例来运行另一个任务. 即使我只使用了 3 分钟的实例,亚马逊也会收取 1 小时 的费用,所以我想用剩余的 57 分钟来运行其他几个任务. 解决方案 答案是肯定的. 以下是使用命令行客户端的方法: 当您创建实例时传递
..
我正在尝试在我的 Amazon Elastic MapReduce 作业中启用错误输入跳过.我正在遵循此处描述的绝妙食谱: http://devblog.factual.com/practical-hadoop-streaming-dealing-with-brittle-code 上面的链接说我需要以某种方式在 EMR 作业上设置以下配置参数: mapred.skip.mode.e
..
我在分析日志文件的数据管道内运行 EMR 活动,当我的管道失败时出现以下错误: 线程“main"org.apache.hadoop.mapred.FileAlreadyExistsException 中的异常:输出目录 hdfs://10.208.42.127:9000/home/hadoop/temp-output-s3copy 已经存在在 org.apache.hadoop.mapred.F
..
我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表,并从一个 CSV 文件中填充它,如下所示: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING)行格式分隔以 '\t' 结尾的字段;加载数据本地输入路径'/home/hadoop/file.csv' OVERWRITE INTO TABLE csvimp
..
我有一个在 AWS EC2 上运行的网站.我需要创建一个夜间作业来生成站点地图文件并将文件上传到各种浏览器.我正在 AWS 上寻找允许此功能的实用程序.我考虑了以下几点: 1) 向 Web 服务器生成一个请求,触发它执行此任务 我不喜欢这种方法,因为它会占用服务器线程并在主机上使用 CPU 周期 2) 在运行 web 服务器的机器上创建一个 cron 作业来执行这个任务 再
..
我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码,并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我自己调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器 它按预期工作. 似乎 hadoop 会自动看到该文件具有 .gz 扩展名并在将其交给映射
..
我的减速器出现以下异常: EMFILE:打开的文件太多在 org.apache.hadoop.io.nativeio.NativeIO.open(本机方法)在 org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161)在 org.apache.hadoop.mapred.TaskLog.writeToInde
..
根据http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-sumption-gotchas/,确定每个节点并发运行任务数的公式为: min (yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemana
..
我正在 Amazon Elastic Map Reduce (EMR) 上的 Apache Spark 上运行一项作业.目前我在 emr-4.1.0 上运行,其中包括 Amazon Hadoop 2.6.0 和 Spark 1.5.0. 当我开始作业时,YARN 已正确地将所有工作节点分配给了 spark 作业(当然,其中一个用于驱动程序). 我将神奇的“maximizeResourc
..
我使用 Amazon Elastic MapReduce 尝试了一个简单的 Map/Reduce 任务,完成任务只用了 3 分钟.是否可以重用同一个实例来运行另一个任务. 即使我只使用了 3 分钟的实例,亚马逊也会收取 1 小时的费用,所以我想用剩余的 57 分钟来运行其他几个任务. 解决方案 答案是肯定的. 以下是使用命令行客户端的方法: 当您创建实例时,传递 --al
..
已在 亚马逊文档 http://aws.amazon.com/dynamodb/ 以及其他地方,您可以使用 Elastic Map Reduce 备份您的 dynamodb 表, 我对这如何工作有一个大致的了解,但我找不到任何关于此的指南或教程, 所以我的问题是如何自动执行 dynamodb 备份(使用 EMR)? 到目前为止,我认为我需要创建一个“流"作业,其中包含从 dynamo
..
所以我尝试使用我作为 MapReduce 步骤启动的自定义 jar 在 Amazon ec2 上查询我的 hbase 集群.我是我的 jar(在 map 函数内)我这样调用 Hbase: public void map( Text key, BytesWritable value, Context contex ) throws IOException, InterruptedException
..
我已通过SSH连接到AWS EMR v5.4.0实例,我想调用s3distcp.此链接演示了如何设置emr步骤来调用它,但是当我运行它时,出现以下错误: 容器的容器启动失败_1492469375740_0001_01_000002:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:auxService:mapreduce_s
..
我正在尝试通过pyspark使用jdbc连接到mysql.我能够在EMR之外做到这一点.但是当我尝试使用EMR时,pyspark无法正确启动. 我在机器上使用的命令 pyspark --conf spark.executor.extraClassPath=/home/hadoop/mysql-connector-java-5.1.38-bin.jar --driver-class-pa
..