elastic-map-reduce 第3页 - IT屋-程序员软件开发技术分享社区

如何从亚马逊的弹性mapreduce（emr）群集上运行mapreduce作业？

我试图学习如何在亚马逊的EMR上运行java Map / Reduce（M / R）作业。我所遵循的文档在这里 http://aws.amazon.com/articles/3938 。我在Windows 7电脑上。当我尝试运行此命令时，显示帮助信息。 ./ elasticmapreduce-client.rb RunJobFlow streaming_jobflow.json ..

发布时间：2018-05-31 19:27:09 hadoop mapreduce elastic-map-reduce amazon-emr 分布式计算/Hadoop

在Hadoop中，我可以在哪里更改namenode和jobtracker网页的默认网址端口50070和50030

NameNode - http：// localhost：50070 / JobTracker - http：// localhost：50030 / dfs.http.address 来定义您选择的端口在conf / core-site.xml中为Jobtracker提供> mapred.job.tracker.http.address ： <结构> ..

发布时间：2018-05-31 19:23:15 hadoop nosql mapreduce hbase elastic-map-reduce 分布式计算/Hadoop

在Amazon EMR上使用来自Java的hbase时遇到问题

因此，我试图使用定制jar来查询Amazon EC2上的hbase集群，我将其作为MapReduce步骤启动。我的jar（在map函数中）我调用了Hbase： public void map（Text key，BytesWritable value，Context ）throws IOException，InterruptedException { Configuration conf ..

发布时间：2018-05-31 19:21:41 hadoop amazon-web-services hbase apache-zookeeper elastic-map-reduce 分布式计算/Hadoop

使用s3distcp将文件从亚马逊s3复制到hdfs失败

我试图使用EMR中的工作流程将文件从s3复制到hdfs，并且当我运行以下命令时，作业流程成功启动，但在尝试将文件复制到HDFS时出现错误。是否需要设置任何输入文件权限？命令： $ b ./ elastic-mapreduce --jobflow j-35D6JOYEDCELA --jar s3：//us-east-1.elasticmapreduce/libs/s3distcp/1.l ..

发布时间：2018-05-31 19:20:30 hadoop amazon-s3 hdfs elastic-map-reduce 分布式计算/Hadoop

从Elastic MapReduce HDFS获取数据

我编写了一个Hadoop程序，它需要HDFS中的特定布局，之后我需要将这些文件从HDFS中取出。它适用于我的单节点Hadoop设置，我渴望在Elastic MapReduce中的10个节点上工作。我一直在做的是类似于这： ./ elastic-mapreduce --create --alive JOBID =“j-XXX”＃output从创建 ./elastic-mapre ..

发布时间：2018-05-31 19:17:21 hadoop elastic-map-reduce 分布式计算/Hadoop

错误：java.io.IOException：错误的值类：类org.apache.hadoop.io.Text不是类Myclass

我有我的映射器和reducer如下。但我正在得到某种奇怪的例外。我无法弄清楚为什么会抛出这样的例外。 public static class MyMapper实现了Mapper { @Override public void map（LongWritable key，Text value， OutputCollec ..

发布时间：2018-05-31 19:17:16 java hadoop elastic-map-reduce Java开发

如何指定映射配置&使用Amazon的EMR在CLI中使用定制jar的java选项？

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置，例如 mapred.task.timeout，mapred.min.split.size 等。使用外部脚本语言（如ruby或python）运行时，我们可以使用以下方法来指定这些配置： ruby elastic-mapreduce -j --stream --step-name“mystream”--jobcon ..

发布时间：2018-05-31 19:09:03 java hadoop mapreduce elastic-map-reduce emr Java开发

hadoop将\r \\\
转换为\ n并打破ARC格式

我试图使用hadoop流解析来自commoncrawl.org的数据。我设置了一个本地hadoop来测试我的代码，并且有一个简单的Ruby映射器，它使用流ARCfile文件读取器。当我自己调用我的代码时，就像 cat 1262876244253_18.arc.gz | mapper.rb | reducer.rb 它按预期工作。。由于ARC依赖于标题行中的记录长 ..

发布时间：2018-05-31 18:57:12 hadoop mapreduce elastic-map-reduce 分布式计算/Hadoop

是否有可能激发一个可执行文件，以便它可以从Java运行？

简单地说，我需要能够将编译好的可执行文件粘贴到Java jar文件中，然后才能够从Java运行它（可能通过 ProcessBuilder ）。为什么是我想使用ImageMagick可执行文件的Java包装器作为图像处理Elastic Map Reduce作业的组件。 EMR只希望得到一个jar文件，所以我认为没有任何空间可以在启动数据节点上安装软件。解决方案 > 到jar中的可执行文件 ..

发布时间：2018-05-31 18:53:07 java hadoop jar executable elastic-map-reduce Java开发

EMR中打开的文件过多

EMFILE：在org中打开的文件太多。 apache.hadoop.io.nativeio.NativeIO.open（Native Method） at org.apache.hadoop.io.SecureIOUtils.createForWrite（SecureIOUtils.java:161） at org.apache.hadoop.mapred .TaskLog.writeT ..

发布时间：2018-05-31 18:53:04 hadoop mapreduce elastic-map-reduce emr 分布式计算/Hadoop

从命令行获取纱线配置

在EMR中，有没有办法通过使用 yarn 命令获得配置的特定值？例如，我想要做这样的事情 yarn get-config yarn.scheduler.maximum-allocation -mb 解决方案这有点不直观，但它结果是 hdfs getconf 命令能够检查YARN和MapReduce的配置属性，而不仅仅是HDFS。 > hdfs g ..

发布时间：2018-05-31 18:51:34 hadoop yarn hadoop2 emr elastic-map-reduce 分布式计算/Hadoop

使用Java将文件从FTP下载到本地会导致文件无法读取 - 编码问题

我开发了一个代码，可以从FTP读取非常大的文件，并使用Java将其写入本地计算机。它的代码如下。这是来自下一个（Text key，Text value）在的 RecordReader > CustomInputFormat if（！processed） { System.out .println（“in processed”）; in = fs.open（file）; proc ..

发布时间：2018-04-13 14:17:03 java hadoop ftp elastic-map-reduce amazon-emr Java开发

线程“主”中的异常org.elasticsearch.client.transport.NoNodeAvailableException：没有节点可用

我正在尝试索引使用下面的Java代码在弹性搜索.. 我给我的机器Ip在代码中。它无法连接到节点。它正在给出如下错误：线程“main”中的异常org.elasticsearch.client.transport.NoNodeAvailableException：无节点可用 at org.elasticsearch.client.transport.TransportClientNod ..

发布时间：2017-08-07 04:47:15 java search elasticsearch search-engine elastic-map-reduce Java开发

由于任务尝试无法报告状态600秒，减少失败。杀！解？

b $ b 每个任务失败的原因是：任务尝试_201301251556_1637_r_000005_0无法报告状态600秒。杀死！详细问题： Map阶段收录每个记录的格式为：time ，数据，数据。数据格式为：data元素及其计数。 eg ：a，1 b，4 c，7 correseponds记录的数据。映射器为每个数据元素输出每个记录的数据。例如： ..

发布时间：2017-07-28 23:20:16 java eclipse hadoop mapreduce elastic-map-reduce Java开发

使用DistCp使用和s3distcp我的电子病历工作，输出到HDFS问题

我已经运行在AWS上的电子病历工作，并存储在电子病历工作的HDFS输出。我然后试图通过DistCp使用或s3distcp结果复制到S3，但两者是失败，如下所述。（注：原因我不只是送我的电子病历工作的直接输出到S3是由于（目前未解决）问题我描述有关DistCp使用，我跑（以下这个职位的建议）：弹性-MA preduce --jobflow＆LT; MY-JOB-ID＆GT; - 罐 \ S3： ..

发布时间：2015-12-01 13:43:17 amazon-web-services elastic-map-reduce amazon-emr emr 云存储

AWS弹性马preduce似乎并没有被正确地转换分流到坛子里

我有一个映射器和减速机的正常工作，当我在管道版本运行这些：猫data.csv的| ./mapper.py |排序-k1,1 | ./reducer.py 我用弹性均线preducer向导，加载输入，输出，引导等的引导是成功的，但我仍然得到一个错误的执行。这是我收到我的标准错误的步骤1中的错误... + /etc/init.d/hadoop-state-pusher-cont ..

发布时间：2015-12-01 13:41:59 python hadoop amazon-web-services hadoop-streaming elastic-map-reduce Python

在Hadoop的分布式缓存的生命

在文件传输到使用Hadoop的数据流作业，分布式缓存机制，并在系统中删除这些文件的节点后，作业完成？如果它们被删除，这是我presume他们，有没有一种方法，使缓存依然为多个作业？这是否以同样的方式在亚马逊弹性麻preduce？解决方案我周围挖源$ C $ C，它看起来像文件由 TrackerDistributedCacheManager 约一次，当他们的引用计数下降到零一分钟。该 T ..

发布时间：2015-12-01 13:20:56 hadoop amazon-web-services elastic-map-reduce 云存储

DynamoDB的InputFormat Hadoop的

我要处理的是使用Hadoop的Map Reduce坚持在亚马逊迪纳摩DB一些数据。我在寻找互联网上Hadoop的的InputFormat迪纳摩DB和找不到它。我不熟悉的迪纳摩DB所以我猜测有一定的技巧与DynamoDB和Hadoop？如果有任何地方执行这一输入格式的请你分享呢？解决方案很多搜索，我发现DynamoDBInputFormat和DynamoDBOutputFormat在亚马 ..

发布时间：2015-12-01 13:18:53 hadoop amazon-web-services mapreduce amazon-dynamodb elastic-map-reduce 云存储

亚马逊弹性麻preduce引导操作不工作

我试图引导行动的下列组合来提高我的工作堆大小，但没有人似乎工作： - MA preD-键值均线pred.child.java.opts = -Xmx1024m --ma preD-键值均线pred.child.ulimit =无限 --ma preD-键值均线pred.map.child.java.opts = -Xmx1024m --ma preD-键值均线pred.map.child ..

发布时间：2015-12-01 13:14:39 hadoop amazon-web-services mapreduce elastic-map-reduce amazon-emr 云存储

破裂的管道故障原因弹性流马preduce工作在AWS上失败

一切正常，本地，当我做如下：猫输入|蟒蛇mapper.py |排序|蟒蛇reducer.py 然而，当我运行在AWS弹性麻preduce流马preduce作业时，作业未成功完成。通过 mapper.py 部分运行方式（我知道是因为写标准错误一路上这一点）。映射器是由一个“破管道”的错误，而我能够从任务企图的日志检索失败后中断： java.io.IOException异常：残破的管道 ..

发布时间：2015-12-01 13:13:53 python hadoop amazon-web-services mapreduce elastic-map-reduce Python

elastic-map-reduce相关内容