elastic-map-reduce相关内容
我试图学习如何在亚马逊的EMR上运行java Map / Reduce(M / R)作业。我所遵循的文档在这里 http://aws.amazon.com/articles/3938 。我在Windows 7电脑上。 当我尝试运行此命令时,显示帮助信息。 ./ elasticmapreduce-client.rb RunJobFlow streaming_jobflow.json
..
NameNode - http:// localhost:50070 / JobTracker - http:// localhost:50030 / dfs.http.address 来定义您选择的端口在conf / core-site.xml中为Jobtracker提供> mapred.job.tracker.http.address : <结构>
..
因此,我试图使用定制jar来查询Amazon EC2上的hbase集群,我将其作为MapReduce步骤启动。我的jar(在map函数中)我调用了Hbase: public void map(Text key,BytesWritable value,Context )throws IOException,InterruptedException { Configuration conf
..
我试图使用EMR中的工作流程将文件从s3复制到hdfs,并且当我运行以下命令时,作业流程成功启动,但在尝试将文件复制到HDFS时出现错误。是否需要设置任何输入文件权限? 命令: $ b ./ elastic-mapreduce --jobflow j-35D6JOYEDCELA --jar s3://us-east-1.elasticmapreduce/libs/s3distcp/1.l
..
我编写了一个Hadoop程序,它需要HDFS中的特定布局,之后我需要将这些文件从HDFS中取出。它适用于我的单节点Hadoop设置,我渴望在Elastic MapReduce中的10个节点上工作。 我一直在做的是类似于这: ./ elastic-mapreduce --create --alive JOBID =“j-XXX”#output从创建 ./elastic-mapre
..
我有我的映射器和reducer如下。但我正在得到某种奇怪的例外。 我无法弄清楚为什么会抛出这样的例外。 public static class MyMapper实现了Mapper { @Override public void map(LongWritable key,Text value, OutputCollec
..
我想知道如何在使用自定义jar运行流作业时指定mapreduce配置,例如 mapred.task.timeout,mapred.min.split.size 等。 使用外部脚本语言(如ruby或python)运行时,我们可以使用以下方法来指定这些配置: ruby elastic-mapreduce -j --stream --step-name“mystream”--jobcon
..
我试图使用hadoop流解析来自commoncrawl.org的数据。我设置了一个本地hadoop来测试我的代码,并且有一个简单的Ruby映射器,它使用流ARCfile文件读取器。当我自己调用我的代码时,就像 cat 1262876244253_18.arc.gz | mapper.rb | reducer.rb 它按预期工作。 。由于ARC依赖于标题行中的记录长
..
简单地说,我需要能够将编译好的可执行文件粘贴到Java jar文件中,然后才能够从Java运行它(可能通过 ProcessBuilder )。 为什么是我想使用ImageMagick可执行文件的Java包装器作为图像处理Elastic Map Reduce作业的组件。 EMR只希望得到一个jar文件,所以我认为没有任何空间可以在启动数据节点上安装软件。 解决方案 > 到jar中的可执行文件
..
EMFILE:在org中打开的文件太多 。 apache.hadoop.io.nativeio.NativeIO.open(Native Method) at org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161) at org.apache.hadoop.mapred .TaskLog.writeT
..
在EMR中,有没有办法通过使用 yarn 命令获得配置的特定值? 例如,我想要做这样的事情 yarn get-config yarn.scheduler.maximum-allocation -mb 解决方案 这有点不直观,但它结果是 hdfs getconf 命令能够检查YARN和MapReduce的配置属性,而不仅仅是HDFS。 > hdfs g
..
我开发了一个代码,可以从FTP读取非常大的文件,并使用Java将其写入本地计算机。它的代码如下。这是来自下一个(Text key,Text value)在的 RecordReader > CustomInputFormat if(!processed) { System.out .println(“in processed”); in = fs.open(file); proc
..
我正在尝试索引使用下面的Java代码在弹性搜索.. 我给我的机器Ip在代码中。它无法连接到节点。 它正在给出如下错误: 线程“main”中的异常org.elasticsearch.client.transport.NoNodeAvailableException:无节点可用 at org.elasticsearch.client.transport.TransportClientNod
..
b $ b 每个任务失败的原因是: 任务尝试_201301251556_1637_r_000005_0无法报告状态600秒。杀死! 详细问题: Map阶段收录每个记录的格式为:time ,数据,数据。 数据格式为:data元素及其计数。 eg :a,1 b,4 c,7 correseponds记录的数据。 映射器为每个数据元素输出每个记录的数据。例如:
..
我已经运行在AWS上的电子病历工作,并存储在电子病历工作的HDFS输出。我然后试图通过DistCp使用或s3distcp结果复制到S3,但两者是失败,如下所述。 (注:原因我不只是送我的电子病历工作的直接输出到S3是由于(目前未解决)问题我描述有关DistCp使用,我跑(以下这个职位的建议): 弹性-MA preduce --jobflow&LT; MY-JOB-ID&GT; - 罐 \ S3:
..
我有一个映射器和减速机的正常工作,当我在管道版本运行这些: 猫data.csv的| ./mapper.py |排序-k1,1 | ./reducer.py 我用弹性均线preducer向导,加载输入,输出,引导等的引导是成功的,但我仍然得到一个错误的执行。 这是我收到我的标准错误的步骤1中的错误... + /etc/init.d/hadoop-state-pusher-cont
..
在文件传输到使用Hadoop的数据流作业,分布式缓存机制,并在系统中删除这些文件的节点后,作业完成?如果它们被删除,这是我presume他们,有没有一种方法,使缓存依然为多个作业?这是否以同样的方式在亚马逊弹性麻preduce? 解决方案 我周围挖源$ C $ C,它看起来像文件由 TrackerDistributedCacheManager 约一次,当他们的引用计数下降到零一分钟。该 T
..
我要处理的是使用Hadoop的Map Reduce坚持在亚马逊迪纳摩DB一些数据。 我在寻找互联网上Hadoop的的InputFormat迪纳摩DB和找不到它。我不熟悉的迪纳摩DB所以我猜测有一定的技巧与DynamoDB和Hadoop?如果有任何地方执行这一输入格式的请你分享呢? 解决方案 很多搜索,我发现DynamoDBInputFormat和DynamoDBOutputFormat在亚马
..
我试图引导行动的下列组合来提高我的工作堆大小,但没有人似乎工作: - MA preD-键值均线pred.child.java.opts = -Xmx1024m --ma preD-键值均线pred.child.ulimit =无限 --ma preD-键值均线pred.map.child.java.opts = -Xmx1024m --ma preD-键值均线pred.map.child
..
一切正常,本地,当我做如下: 猫输入|蟒蛇mapper.py |排序|蟒蛇reducer.py 然而,当我运行在AWS弹性麻preduce流马preduce作业时,作业未成功完成。通过 mapper.py 部分运行方式(我知道是因为写标准错误一路上这一点)。映射器是由一个“破管道”的错误,而我能够从任务企图的日志检索失败后中断: java.io.IOException异常:残破的管道
..