hadoop相关内容
我正在考虑使用 hadoop 在我现有的 windows 2003 服务器(大约 10 台四核机器和 16gb 内存)上处理大型文本文件 问题是: 有没有关于如何在windows上配置hadoop集群的好教程? 有什么要求?java + cygwin + sshd ?还有什么? HDFS,在 Windows 上玩得好吗? 我想在流模式下使用 hadoop.在 c# 中
..
我有一个由 1 个主节点(namenode、secondarynamenode、resourcemanager)和 2 个从节点(datanode、nodemanager)组成的小型集群. 我已经在master的yarn-site.xml中设置了: yarn.scheduler.minimum-allocation-mb:512 yarn.scheduler.maximum-allo
..
我以为他们指的是 Reducer,但在我的程序中我有 公共静态类 MyMapper 扩展映射器 和 公共静态类 MyReducer 扩展减速机 如果我有 job.setOutputKeyClass(NullWritable.class); job.setOutputValueClass(Text.class); 我得到以下异常 map 中键的类型不匹
..
我有自己的 MapReduce 代码正在尝试运行,但它只是停留在 Accepted 状态.我尝试运行之前运行过的另一个示例 MR 作业并且成功.但是现在,这两个工作都处于 Accepted 状态.我尝试更改 mapred-site.xml 和 yarn-site.xml 中提到的各种属性 这里和here 但这也无济于事.有人可以指出可能出了什么问题.我正在使用 hadoop-2.2.0 我已
..
我正在编写 hadoop 程序,我真的不想玩已弃用的类.在网上任何地方我都找不到更新的程序 org.apache.hadoop.conf.配置 类 org.apache.hadoop.mapred.JobConf 类. public static void main(String[] args) throws Exception {JobConf conf = new
..
是否分别在每个 mapper 和 reducer 任务中调用 setup 和 cleanup 方法?还是在整个映射器和减速器作业开始时只调用一次? 解决方案 每个任务都会调用它们,所以如果你有 20 个正在运行的映射器,则会为每个任务调用 setup/cleanup. 一个问题是 Mapper 和 Reducer 的标准 run 方法不会捕获 map/reduce 方法周围的异常 -
..
Yarn 的基础设施层与原始 map reduce 架构的不同之处在于: 在 YARN 中,作业跟踪器分为两个不同的守护进程,称为 Resource Manager 和 Node Manager(特定于节点).资源管理器只管理对不同作业的资源分配,除了包含一个调度器,它只负责调度作业,而不用担心任何监控或状态更新.不同的资源,如内存、cpu 时间、网络带宽等,都被放入一个称为 Resourc
..
我是 Map-reduce 的新手,我想了解什么是序列文件数据输入?我学习了 Hadoop 书籍,但我很难理解. 解决方案 首先要了解SequenceFile试图解决什么问题,然后SequenceFile如何帮助解决问题. 在 HDFS 中 SequenceFile 是 Hadoop 中小文件问题的解决方案之一. 小文件明显小于 HDFS 块大小 (128MB). HDFS
..
我已经使用 cloudera 测试了 hadoop 和 mapreduce,我发现它非常酷,我认为我是最新且相关的 BigData 解决方案.但是几天前,我发现了这个:https://spark.incubator.apache.org/ 一个“闪电般的快速集群计算系统",能够在 Hadoop 集群之上工作,并且显然能够碾压 mapreduce.我看到它在 RAM 中比 mapreduce
..
我们有一个大型数据集要使用多个 reduce 函数进行分析. 所有 reduce 算法都适用于由相同 map 函数生成的相同数据集.每次读取大型数据集成本太高,最好只读取一次并将映射数据传递给多个reduce函数. 我可以用 Hadoop 做到这一点吗?我搜索了示例和 intarweb,但找不到任何解决方案. 解决方案 您是否希望每个 reducer 都处理完全相同的映射数
..
请在此代码中帮助我.我正在尝试从 HDFS 读取图像.我正在使用 WholeFileInputFormat.与 WholeFileRecordreader.没有编译时错误.但是代码给出了运行时错误.输出是说:无法创建给定类 WholeFileInputFormat 的实例.我已经根据 如何在map-reduce中从hdfs读取多个图像文件作为输入?请在这段代码中帮助我.它包含 3 个类.如何调试它
..
我想在我的 MR 代码中使用组合器,比如 WordCount. 我应该如何实现它? 什么样的数据从组合器传递给reducer? 如果你们中的任何人都可以提供Combiner 和Reducer 的代码,那就太好了. 如果你能解释一下组合器的工作原理会更好 我是 mapreduce 的新手,我正处于学习阶段. 提前致谢:) 解决方案 一个Combiner,也
..
我在 NetBeans IDE 8.0.2 中使用 hadoop 2.7.0 和 java oracle jdk1.7.0_79.当我尝试使用 Java 文件与 Hadoop 通信时,出现以下错误.是否涉及任何依赖问题?或者我该如何解决这个错误? 我看过相关问题的帖子,但没有一个有助于清楚地传达答案.所以,请在这里帮助我.谢谢! 线程“main"org.apache.hadoop.ipc
..
我在我的 java 程序中使用 conf.setNumMapTasks() 明确指定了映射器的数量,但是当作业结束时,计数器显示启动的映射任务的数量超过了指定的值.如何将mapper的数量限制为指定值? 解决方案 根据Hadoop API Jonf.setNumMapTasks 只是对 Hadoop 运行时的提示.map任务的总数等于输入数据中要处理的块数. 虽然,应该可以使用 ma
..
我正在尝试使用 MRUnit 测试 Hadoop .mapreduce Avro 作业.我收到如下所示的 NullPointerException.我附上了一部分 pom 和源代码.任何援助将不胜感激. 谢谢 我得到的错误是: java.lang.NullPointerException在 org.apache.hadoop.mrunit.internal.io.Serializat
..
在 Hadoop MapReduce 中,对于中间输出(由 map() 生成),我希望中间输出的值是以下对象. 我的对象{日期:日期余额:双} 我该怎么做.我应该创建自己的可写类吗? 我是 MapReduce 的新手. 谢谢. 解决方案 您可以编写您可以作为映射器值发出的自定义类型.但是无论你想作为值发出什么,都必须实现可写接口.你可以这样做: public class
..
shuffle 和 sort 阶段是在 map 任务结束之前还是在 map 任务生成输出之后出现,这样就不会再回顾 map 任务了.这是我感到困惑的“仅地图任务"案例.如果仅 Map 任务中没有 Shuffle 和 sort,有人可以解释一下数据是如何写入最终输出文件的. 解决方案 当你有一个map-only任务时,根本没有shuffle,这意味着mapper会将最终输出直接写入HDFS.
..
我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码,并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我像自己一样调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器.rb 它按预期工作. 似乎 hadoop 会自动看到文件具有 .gz 扩展名并在将
..
我正在从我的 Eclipse 中运行 WordCount 程序.我尝试使用 Hadoop1.x 运行良好.在 hadoop2.x 上运行时遇到问题 我试过了1)将所有 xml 添加到我的类路径中.2)也尝试了conf.set(),在conf对象中设置xml属性. 还在日志中显示:-没有可用于容器 container_1394042163908_0573_01_000001 的日志
..
我有 100 个映射器和 1 个减速器在一个作业中运行.如何提高工作绩效? 据我了解:使用组合器可以在很大程度上提高性能.但是我们还需要配置什么来提高作业性能? 解决方案 由于本题数据有限(输入文件大小、HDFS块大小、平均map处理时间、Mapper槽数和集群中Reduce槽数等).),我们无法建议提示. 但是有一些通用的指导方针可以提高性能. 如果每个任务花费的时间少
..