elastic-map-reduce相关内容

使用s3distcp将文件从亚马逊s3复制到hdfs失败

我试图使用EMR中的工作流程将文件从s3复制到hdfs,并且当我运行以下命令时,作业流程成功启动,但在尝试将文件复制到HDFS时出现错误。是否需要设置任何输入文件权限? 命令: $ b ./ elastic-mapreduce --jobflow j-35D6JOYEDCELA --jar s3://us-east-1.elasticmapreduce/libs/s3distcp/1.l ..
发布时间:2018-05-31 19:20:30 分布式计算/Hadoop

从Elastic MapReduce HDFS获取数据

我编写了一个Hadoop程序,它需要HDFS中的特定布局,之后我需要将这些文件从HDFS中取出。它适用于我的单节点Hadoop设置,我渴望在Elastic MapReduce中的10个节点上工作。 我一直在做的是类似于这: ./ elastic-mapreduce --create --alive JOBID =“j-XXX”#output从创建 ./elastic-mapre ..
发布时间:2018-05-31 19:17:21 分布式计算/Hadoop

如何指定映射配置&使用Amazon的EMR在CLI中使用定制jar的java选项?

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置,例如 mapred.task.timeout,mapred.min.split.size 等。 使用外部脚本语言(如ruby或python)运行时,我们可以使用以下方法来指定这些配置: ruby​​ elastic-mapreduce -j --stream --step-name“mystream”--jobcon ..
发布时间:2018-05-31 19:09:03 Java开发

hadoop将\r \\\
转换为\ n并打破ARC格式

我试图使用hadoop流解析来自commoncrawl.org的数据。我设置了一个本地hadoop来测试我的代码,并且有一个简单的Ruby映射器,它使用流ARCfile文件读取器。当我自己调用我的代码时,就像 cat 1262876244253_18.arc.gz | mapper.rb | reducer.rb 它按预期工作。 。由于ARC依赖于标题行中的记录长 ..
发布时间:2018-05-31 18:57:12 分布式计算/Hadoop

是否有可能激发一个可执行文件,以便它可以从Java运行?

简单地说,我需要能够将编译好的可执行文件粘贴到Java jar文件中,然后才能够从Java运行它(可能通过 ProcessBuilder )。 为什么是我想使用ImageMagick可执行文件的Java包装器作为图像处理Elastic Map Reduce作业的组件。 EMR只希望得到一个jar文件,所以我认为没有任何空间可以在启动数据节点上安装软件。 解决方案 > 到jar中的可执行文件 ..
发布时间:2018-05-31 18:53:07 Java开发

从命令行获取纱线配置

在EMR中,有没有办法通过使用 yarn 命令获得配置的特定值? 例如,我想要做这样的事情 yarn get-config yarn.scheduler.maximum-allocation -mb 解决方案 这有点不直观,但它结果是 hdfs getconf 命令能够检查YARN和MapReduce的配置属性,而不仅仅是HDFS。 > hdfs g ..
发布时间:2018-05-31 18:51:34 分布式计算/Hadoop

线程“主”中的异常org.elasticsearch.client.transport.NoNodeAvailableException:没有节点可用

我正在尝试索引使用下面的Java代码在弹性搜索.. 我给我的机器Ip在代码中。它无法连接到节点。 它正在给出如下错误: 线程“main”中的异常org.elasticsearch.client.transport.NoNodeAvailableException:无节点可用 at org.elasticsearch.client.transport.TransportClientNod ..

由于任务尝试无法报告状态600秒,减少失败。杀!解?

b $ b 每个任务失败的原因是: 任务尝试_201301251556_1637_r_000005_0无法报告状态600秒。杀死! 详细问题: Map阶段收录每个记录的格式为:time ,数据,数据。 数据格式为:data元素及其计数。 eg :a,1 b,4 c,7 correseponds记录的数据。 映射器为每个数据元素输出每个记录的数据。例如: ..
发布时间:2017-07-28 23:20:16 Java开发

使用DistCp使用和s3distcp我的电子病历工作,输出到HDFS问题

我已经运行在AWS上的电子病历工作,并存储在电子病历工作的HDFS输出。我然后试图通过DistCp使用或s3distcp结果复制到S3,但两者是失败,如下所述。 (注:原因我不只是送我的电子病历工作的直接输出到S3是由于(目前未解决)问题我描述有关DistCp使用,我跑(以下这个职位的建议): 弹性-MA preduce --jobflow< MY-JOB-ID> - 罐 \ S3: ..
发布时间:2015-12-01 13:43:17 云存储

AWS弹性马preduce似乎并没有被正确地转换分流到坛子里

我有一个映射器和减速机的正常工作,当我在管道版本运行这些: 猫data.csv的| ./mapper.py |排序-k1,1 | ./reducer.py 我用弹性均线preducer向导,加载输入,输出,引导等的引导是成功的,但我仍然得到一个错误的执行。 这是我收到我的标准错误的步骤1中的错误... + /etc/init.d/hadoop-state-pusher-cont ..

在Hadoop的分布式缓存的生命

在文件传输到使用Hadoop的数据流作业,分布式缓存机制,并在系统中删除这些文件的节点后,作业完成?如果它们被删除,这是我presume他们,有没有一种方法,使缓存依然为多个作业?这是否以同样的方式在亚马逊弹性麻preduce? 解决方案 我周围挖源$ C ​​$ C,它看起来像文件由 TrackerDistributedCacheManager 约一次,当他们的引用计数下降到零一分钟。该 T ..
发布时间:2015-12-01 13:20:56 云存储

DynamoDB的InputFormat Hadoop的

我要处理的是使用Hadoop的Map Reduce坚持在亚马逊迪纳摩DB一些数据。 我在寻找互联网上Hadoop的的InputFormat迪纳摩DB和找不到它。我不熟悉的迪纳摩DB所以我猜测有一定的技巧与DynamoDB和Hadoop?如果有任何地方执行这一输入格式的请你分享呢? 解决方案 很多搜索,我发现DynamoDBInputFormat和DynamoDBOutputFormat在亚马 ..

破裂的管道故障原因弹性流马preduce工作在AWS上失败

一切正常,本地,当我做如下: 猫输入|蟒蛇mapper.py |排序|蟒蛇reducer.py 然而,当我运行在AWS弹性麻preduce流马preduce作业时,作业未成功完成。通过 mapper.py 部分运行方式(我知道是因为写标准错误一路上这一点)。映射器是由一个“破管道”的错误,而我能够从任务企图的日志检索失败后中断: java.io.IOException异常:残破的管道 ..