hadoop相关内容

Windows服务器上的Hadoop

我正在考虑使用 hadoop 在我现有的 windows 2003 服务器(大约 10 台四核机器和 16gb 内存)上处理大型文本文件 问题是: 有没有关于如何在windows上配置hadoop集群的好教程? 有什么要求?java + cygwin + sshd ?还有什么? HDFS,在 Windows 上玩得好吗? 我想在流模式下使用 hadoop.在 c# 中 ..
发布时间:2022-01-13 23:33:59 C#/.NET

MapReduce 作业卡在 Accepted 状态

我有自己的 MapReduce 代码正在尝试运行,但它只是停留在 Accepted 状态.我尝试运行之前运行过的另一个示例 MR 作业并且成功.但是现在,这两个工作都处于 Accepted 状态.我尝试更改 mapred-site.xml 和 yarn-site.xml 中提到的各种属性 这里和here 但这也无济于事.有人可以指出可能出了什么问题.我正在使用 hadoop-2.2.0 我已 ..
发布时间:2022-01-13 23:33:17 其他开发

Hadoop MapReduce 中 Mapper/Reducer 的设置和清理方法

是否分别在每个 mapper 和 reducer 任务中调用 setup 和 cleanup 方法?还是在整个映射器和减速器作业开始时只调用一次? 解决方案 每个任务都会调用它们,所以如果你有 20 个正在运行的映射器,则会为每个任务调用 setup/cleanup. 一个问题是 Mapper 和 Reducer 的标准 run 方法不会捕获 map/reduce 方法周围的异常 - ..
发布时间:2022-01-13 23:32:59 其他开发

Yarn 给现有的 map reduce 带来了哪些额外的好处?

Yarn 的基础设施层与原始 map reduce 架构的不同之处在于: 在 YARN 中,作业跟踪器分为两个不同的守护进程,称为 Resource Manager 和 Node Manager(特定于节点).资源管理器只管理对不同作业的资源分配,除了包含一个调度器,它只负责调度作业,而不用担心任何监控或状态更新.不同的资源,如内存、cpu 时间、网络带宽等,都被放入一个称为 Resourc ..
发布时间:2022-01-13 23:32:48 其他开发

hadoop中的序列文件是什么?

我是 Map-reduce 的新手,我想了解什么是序列文件数据输入?我学习了 Hadoop 书籍,但我很难理解. 解决方案 首先要了解SequenceFile试图解决什么问题,然后SequenceFile如何帮助解决问题. 在 HDFS 中 SequenceFile 是 Hadoop 中小文件问题的解决方案之一. 小文件明显小于 HDFS 块大小 (128MB). HDFS ..
发布时间:2022-01-13 23:32:26 其他开发

MapReduce 还是 Spark?

我已经使用 cloudera 测试了 hadoop 和 mapreduce,我发现它非常酷,我认为我是最新且相关的 BigData 解决方案.但是几天前,我发现了这个:https://spark.incubator.apache.org/ 一个“闪电般的快速集群计算系统",能够在 Hadoop 集群之上工作,并且显然能够碾压 mapreduce.我看到它在 RAM 中比 mapreduce ..
发布时间:2022-01-13 23:32:17 其他开发

Hadoop 一个 Map 和多个 Reduce

我们有一个大型数据集要使用多个 reduce 函数进行分析. 所有 reduce 算法都适用于由相同 ma​​p 函数生成的相同数据集.每次读取大型数据集成本太高,最好只读取一次并将映射数据传递给多个reduce函数. 我可以用 Hadoop 做到这一点吗?我搜索了示例和 intarweb,但找不到任何解决方案. 解决方案 您是否希望每个 reducer 都处理完全相同的映射数 ..
发布时间:2022-01-13 23:32:08 其他开发

使用 mapreduce 从 HDFS 读取图像

请在此代码中帮助我.我正在尝试从 HDFS 读取图像.我正在使用 WholeFileInputFormat.与 WholeFileRecordreader.没有编译时错误.但是代码给出了运行时错误.输出是说:无法创建给定类 WholeFileInputFormat 的实例.我已经根据 如何在map-reduce中从hdfs读取多个图像文件作为输入?请在这段代码中帮助我.它包含 3 个类.如何调试它 ..
发布时间:2022-01-13 23:31:45 其他开发

组合器实施和内部工作

我想在我的 MR 代码中使用组合器,比如 WordCount. 我应该如何实现它? 什么样的数据从组合器传递给reducer? 如果你们中的任何人都可以提供Combiner 和Reducer 的代码,那就太好了. 如果你能解释一下组合器的工作原理会更好 我是 mapreduce 的新手,我正处于学习阶段. 提前致谢:) 解决方案 一个Combiner,也 ..
发布时间:2022-01-13 23:31:37 其他开发

线程“main"中的异常org.apache.hadoop.ipc.RemoteException:服务器 IPC 版本 9 无法与客户端版本 4 通信.如何解决这个问题?

我在 NetBeans IDE 8.0.2 中使用 hadoop 2.7.0 和 java oracle jdk1.7.0_79.当我尝试使用 Java 文件与 Hadoop 通信时,出现以下错误.是否涉及任何依赖问题?或者我该如何解决这个错误? 我看过相关问题的帖子,但没有一个有助于清楚地传达答案.所以,请在这里帮助我.谢谢! 线程“main"org.apache.hadoop.ipc ..
发布时间:2022-01-13 23:31:10 Java开发

如何限制映射器的数量

我在我的 java 程序中使用 conf.setNumMapTasks() 明确指定了映射器的数量,但是当作业结束时,计数器显示启动的映射任务的数量超过了指定的值.如何将mapper的数量限制为指定值? 解决方案 根据Hadoop API Jonf.setNumMapTasks 只是对 Hadoop 运行时的提示.map任务的总数等于输入数据中要处理的块数. 虽然,应该可以使用 ma ..
发布时间:2022-01-13 23:30:52 其他开发

如何在 Hadoop MapReduce 中将对象设置为 Map 输出的值?

在 Hadoop MapReduce 中,对于中间输出(由 map() 生成),我希望中间输出的值是以下对象. 我的对象{日期:日期余额:双} 我该怎么做.我应该创建自己的可写类吗? 我是 MapReduce 的新手. 谢谢. 解决方案 您可以编写您可以作为映射器值发出的自定义类型.但是无论你想作为值发出什么,都必须实现可写接口.你可以这样做: public class ..
发布时间:2022-01-13 23:30:26 Java开发

仅地图任务中会有随机播放和排序吗?

shuffle 和 sort 阶段是在 map 任务结束之前还是在 map 任务生成输出之后出现,这样就不会再回顾 map 任务了.这是我感到困惑的“仅地图任务"案例.如果仅 Map 任务中没有 Shuffle 和 sort,有人可以解释一下数据是如何写入最终输出文件的. 解决方案 当你有一个map-only任务时,根本没有shuffle,这意味着mapper会将最终输出直接写入HDFS. ..
发布时间:2022-01-13 23:30:16 其他开发

hadoop 将 \r\n 转换为 \n 并打破 ARC 格式

我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码,并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我像自己一样调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器.rb 它按预期工作. 似乎 hadoop 会自动看到文件具有 .gz 扩展名并在将 ..
发布时间:2022-01-13 23:30:07 其他开发

在 Hadoop 中提高 MapReduce 作业性能的技巧

我有 100 个映射器和 1 个减速器在一个作业中运行.如何提高工作绩效? 据我了解:使用组合器可以在很大程度上提高性能.但是我们还需要配置什么来提高作业性能? 解决方案 由于本题数据有限(输入文件大小、HDFS块大小、平均map处理时间、Mapper槽数和集群中Reduce槽数等).),我们无法建议提示. 但是有一些通用的指导方针可以提高性能. 如果每个任务花费的时间少 ..
发布时间:2022-01-13 23:29:45 其他开发