hadoop 第13页 - IT屋-程序员软件开发技术分享社区

Windows服务器上的Hadoop

我正在考虑使用 hadoop 在我现有的 windows 2003 服务器(大约 10 台四核机器和 16gb 内存)上处理大型文本文件问题是: 有没有关于如何在windows上配置hadoop集群的好教程? 有什么要求?java + cygwin + sshd ?还有什么? HDFS，在 Windows 上玩得好吗? 我想在流模式下使用 hadoop.在 c# 中 ..

发布时间：2022-01-13 23:33:59 c# windows hadoop mapreduce cluster-computing C#/.NET

MapReduce2中如何基于vcores和memory创建容器?

我有一个由 1 个主节点(namenode、secondarynamenode、resourcemanager)和 2 个从节点(datanode、nodemanager)组成的小型集群. 我已经在master的yarn-site.xml中设置了: yarn.scheduler.minimum-allocation-mb:512 yarn.scheduler.maximum-allo ..

发布时间：2022-01-13 23:33:36 hadoop mapreduce hadoop-yarn 其他开发

job.setOutputKeyClass 和 job.setOutputReduceClass 指的是哪里?

我以为他们指的是 Reducer，但在我的程序中我有公共静态类 MyMapper 扩展映射器和公共静态类 MyReducer 扩展减速机如果我有 job.setOutputKeyClass(NullWritable.class); job.setOutputValueClass(Text.class); 我得到以下异常 map 中键的类型不匹 ..

发布时间：2022-01-13 23:33:26 java hadoop mapreduce Java开发

MapReduce 作业卡在 Accepted 状态

我有自己的 MapReduce 代码正在尝试运行，但它只是停留在 Accepted 状态.我尝试运行之前运行过的另一个示例 MR 作业并且成功.但是现在，这两个工作都处于 Accepted 状态.我尝试更改 mapred-site.xml 和 yarn-site.xml 中提到的各种属性这里和here 但这也无济于事.有人可以指出可能出了什么问题.我正在使用 hadoop-2.2.0 我已 ..

发布时间：2022-01-13 23:33:17 hadoop mapreduce 其他开发

Hadoop JobConf 类已弃用，需要更新示例

我正在编写 hadoop 程序，我真的不想玩已弃用的类.在网上任何地方我都找不到更新的程序 org.apache.hadoop.conf.配置类 org.apache.hadoop.mapred.JobConf 类. public static void main(String[] args) throws Exception {JobConf conf = new ..

发布时间：2022-01-13 23:33:09 hadoop mapreduce cloudera 其他开发

Hadoop MapReduce 中 Mapper/Reducer 的设置和清理方法

是否分别在每个 mapper 和 reducer 任务中调用 setup 和 cleanup 方法?还是在整个映射器和减速器作业开始时只调用一次? 解决方案每个任务都会调用它们，所以如果你有 20 个正在运行的映射器，则会为每个任务调用 setup/cleanup. 一个问题是 Mapper 和 Reducer 的标准 run 方法不会捕获 map/reduce 方法周围的异常 - ..

发布时间：2022-01-13 23:32:59 hadoop mapreduce 其他开发

Yarn 给现有的 map reduce 带来了哪些额外的好处?

Yarn 的基础设施层与原始 map reduce 架构的不同之处在于: 在 YARN 中，作业跟踪器分为两个不同的守护进程，称为 Resource Manager 和 Node Manager(特定于节点).资源管理器只管理对不同作业的资源分配，除了包含一个调度器，它只负责调度作业，而不用担心任何监控或状态更新.不同的资源，如内存、cpu 时间、网络带宽等，都被放入一个称为 Resourc ..

发布时间：2022-01-13 23:32:48 hadoop mapreduce hadoop-yarn 其他开发

hadoop中的序列文件是什么?

我是 Map-reduce 的新手，我想了解什么是序列文件数据输入?我学习了 Hadoop 书籍，但我很难理解. 解决方案首先要了解SequenceFile试图解决什么问题，然后SequenceFile如何帮助解决问题. 在 HDFS 中 SequenceFile 是 Hadoop 中小文件问题的解决方案之一. 小文件明显小于 HDFS 块大小 (128MB). HDFS ..

发布时间：2022-01-13 23:32:26 file hadoop input mapreduce sequence 其他开发

MapReduce 还是 Spark?

我已经使用 cloudera 测试了 hadoop 和 mapreduce，我发现它非常酷，我认为我是最新且相关的 BigData 解决方案.但是几天前，我发现了这个:https://spark.incubator.apache.org/ 一个“闪电般的快速集群计算系统"，能够在 Hadoop 集群之上工作，并且显然能够碾压 mapreduce.我看到它在 RAM 中比 mapreduce ..

发布时间：2022-01-13 23:32:17 apache-spark hadoop mapreduce 其他开发

Hadoop 一个 Map 和多个 Reduce

我们有一个大型数据集要使用多个 reduce 函数进行分析. 所有 reduce 算法都适用于由相同 map 函数生成的相同数据集.每次读取大型数据集成本太高，最好只读取一次并将映射数据传递给多个reduce函数. 我可以用 Hadoop 做到这一点吗?我搜索了示例和 intarweb，但找不到任何解决方案. 解决方案您是否希望每个 reducer 都处理完全相同的映射数 ..

发布时间：2022-01-13 23:32:08 hadoop mapreduce 其他开发

使用 mapreduce 从 HDFS 读取图像

请在此代码中帮助我.我正在尝试从 HDFS 读取图像.我正在使用 WholeFileInputFormat.与 WholeFileRecordreader.没有编译时错误.但是代码给出了运行时错误.输出是说:无法创建给定类 WholeFileInputFormat 的实例.我已经根据如何在map-reduce中从hdfs读取多个图像文件作为输入?请在这段代码中帮助我.它包含 3 个类.如何调试它 ..

发布时间：2022-01-13 23:31:45 hadoop mapreduce 其他开发

组合器实施和内部工作

我想在我的 MR 代码中使用组合器，比如 WordCount. 我应该如何实现它? 什么样的数据从组合器传递给reducer? 如果你们中的任何人都可以提供Combiner 和Reducer 的代码，那就太好了. 如果你能解释一下组合器的工作原理会更好我是 mapreduce 的新手，我正处于学习阶段. 提前致谢:) 解决方案一个Combiner，也 ..

发布时间：2022-01-13 23:31:37 hadoop mapreduce combiners 其他开发

线程“main"中的异常org.apache.hadoop.ipc.RemoteException:服务器 IPC 版本 9 无法与客户端版本 4 通信.如何解决这个问题?

我在 NetBeans IDE 8.0.2 中使用 hadoop 2.7.0 和 java oracle jdk1.7.0_79.当我尝试使用 Java 文件与 Hadoop 通信时，出现以下错误.是否涉及任何依赖问题?或者我该如何解决这个错误? 我看过相关问题的帖子，但没有一个有助于清楚地传达答案.所以，请在这里帮助我.谢谢！线程“main"org.apache.hadoop.ipc ..

发布时间：2022-01-13 23:31:10 java hadoop netbeans mapreduce Java开发

如何限制映射器的数量

我在我的 java 程序中使用 conf.setNumMapTasks() 明确指定了映射器的数量，但是当作业结束时，计数器显示启动的映射任务的数量超过了指定的值.如何将mapper的数量限制为指定值? 解决方案根据Hadoop API Jonf.setNumMapTasks 只是对 Hadoop 运行时的提示.map任务的总数等于输入数据中要处理的块数. 虽然，应该可以使用 ma ..

发布时间：2022-01-13 23:30:52 hadoop mapreduce 其他开发

序列化中带有 Avro NullPointerException 的 MRUnit

我正在尝试使用 MRUnit 测试 Hadoop .mapreduce Avro 作业.我收到如下所示的 NullPointerException.我附上了一部分 pom 和源代码.任何援助将不胜感激. 谢谢我得到的错误是: java.lang.NullPointerException在 org.apache.hadoop.mrunit.internal.io.Serializat ..

发布时间：2022-01-13 23:30:36 hadoop mapreduce avro mrunit 其他开发

如何在 Hadoop MapReduce 中将对象设置为 Map 输出的值?

在 Hadoop MapReduce 中，对于中间输出(由 map() 生成)，我希望中间输出的值是以下对象. 我的对象{日期:日期余额:双} 我该怎么做.我应该创建自己的可写类吗? 我是 MapReduce 的新手. 谢谢. 解决方案您可以编写您可以作为映射器值发出的自定义类型.但是无论你想作为值发出什么，都必须实现可写接口.你可以这样做: public class ..

发布时间：2022-01-13 23:30:26 java hadoop mapreduce distributed-computing hdfs Java开发

仅地图任务中会有随机播放和排序吗?

shuffle 和 sort 阶段是在 map 任务结束之前还是在 map 任务生成输出之后出现，这样就不会再回顾 map 任务了.这是我感到困惑的“仅地图任务"案例.如果仅 Map 任务中没有 Shuffle 和 sort，有人可以解释一下数据是如何写入最终输出文件的. 解决方案当你有一个map-only任务时，根本没有shuffle，这意味着mapper会将最终输出直接写入HDFS. ..

发布时间：2022-01-13 23:30:16 hadoop mapreduce 其他开发

hadoop 将 \r\n 转换为 \n 并打破 ARC 格式

我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码，并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我像自己一样调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器.rb 它按预期工作. 似乎 hadoop 会自动看到文件具有 .gz 扩展名并在将 ..

发布时间：2022-01-13 23:30:07 hadoop mapreduce elastic-map-reduce 其他开发

从 windows eclipse 运行 Mapreduce(yarn) 时出错

我正在从我的 Eclipse 中运行 WordCount 程序.我尝试使用 Hadoop1.x 运行良好.在 hadoop2.x 上运行时遇到问题我试过了1)将所有 xml 添加到我的类路径中.2)也尝试了conf.set()，在conf对象中设置xml属性. 还在日志中显示:-没有可用于容器 container_1394042163908_0573_01_000001 的日志 ..

发布时间：2022-01-13 23:29:53 java eclipse hadoop mapreduce hadoop-yarn Java开发

在 Hadoop 中提高 MapReduce 作业性能的技巧

我有 100 个映射器和 1 个减速器在一个作业中运行.如何提高工作绩效? 据我了解:使用组合器可以在很大程度上提高性能.但是我们还需要配置什么来提高作业性能? 解决方案由于本题数据有限(输入文件大小、HDFS块大小、平均map处理时间、Mapper槽数和集群中Reduce槽数等).)，我们无法建议提示. 但是有一些通用的指导方针可以提高性能. 如果每个任务花费的时间少 ..

发布时间：2022-01-13 23:29:45 performance hadoop mapreduce hadoop2 其他开发

hadoop相关内容