hadoop2相关内容

我应该选择1.x,2.2和0.23之一的hadoop版本

你好,我是Hadoop的新手,对版本名称感到困惑,我应该在1.x(很好的支持和学习资源),2.2或0.23中使用哪一个。 我读过hadoop从v0.23完全转向YARN( link1 )。但与此同时,它在网络上的所有hadoop v2.0正在转向YARN( link2 a>),我可以在Hadoop 2.2本身中看到YARN配置文件。 但是由于0.23似乎是我的最新版本,2.2还有 支 ..
发布时间:2018-05-31 18:47:56 分布式计算/Hadoop

Hadoop 2.0名称节点,辅助节点和检查点节点以实现高可用性

在阅读Apache Hadoop文档,对于理解二级节点的责任有一点点困惑。检查点节点 我在 Namenode 角色和责任上很清楚: NameNode将对文件系统的修改作为附加到本地文件系统文件的日志进行修改。当NameNode启动时,它从图像文件fsimage中读取HDFS状态,然后应用编辑日志文件中的编辑。然后它将新的HDFS状态写入fsimage,并使用空的编辑文件开始正常操作。由 ..
发布时间:2018-05-31 18:46:27 分布式计算/Hadoop

命名空间图像和编辑日志

在 Namenodes和Datanodes 主题下的“ Hadoop权威指南”中提到: namenode管理文件系统名称空间。它维护 文件系统树以及 树中所有文件和目录的元数据。这些信息以两个文件的形式存储在本地磁盘上:命名空间图像和编辑日志。 辅助名称节点,尽管它的名称不作为名称节点。 它的主要作用是定期将命名空间图像与 编辑日志合并,以防止编辑日志过大。 我对这些文件 ..
发布时间:2018-05-31 18:45:02 分布式计算/Hadoop

Hadoop发布missing / conf目录

我试图在Ubuntu上安装Hadoop的单个节点设置。 我开始遵循说明在Hadoop 2.3文档。 但我似乎缺少一些非常简单的东西。 首先,它说 要获得Hadoop发行版,请从其中一个Apache下载镜像下载最新的稳定版本。 然后, 解压下载的Hadoop发行版。在发行版中,编辑文件conf / hadoop-env.sh以至少将JAVA_HOME定义为Java安装 ..
发布时间:2018-05-31 18:44:07 分布式计算/Hadoop

如何将AWS Access Key ID和Secret Access Key指定为amazon s3n URL的一部分

我将输入和输出文件夹作为参数传递给mapreduce字数统计程序。 获取以下错误: HTTP状态500 - 请求处理失败;嵌套异常是 java.lang.IllegalArgumentException:AWS访问密钥ID和秘密 访问密钥必须指定为s3n URL的用户名或密码 (分别),或者通过设置fs .s3n.awsAccessKeyId 或fs.s3n.awsSecret ..

提高Hadoop中MapReduce作业性能的技巧

我有100个mapper和1个reducer在一份工作中运行。如何提高工作绩效?根据我的理解:使用组合器可以在很大程度上提高性能。但是,我们还需要配置哪些内容才能提高作业性能?解决方案 使用此问题中的有限数据(输入文件大小, HDFS块大小,平均地图处理时间,Mapper插槽数量和缩小簇中的插槽等),我们不能提示提示。 但是有一些通用的指导方针可以提高性能。 如果每个任务的持续时间少于 ..
发布时间:2018-05-31 18:40:13 分布式计算/Hadoop

Spark无法为您的平台加载native-hadoop库

我是Ubuntu 16.04上的一名虚拟人物,拼命尝试让Spark工作。 我试图解决我的问题,使用在这里找到的答案在stackoverflow但我无法解决任何问题。 使用命令 ./ spark-shell 从bin文件夹启动spark我收到此消息 WARN NativeCodeLoader:无法为您的平台加载native-hadoop库......在适用的情况下使用builtin-ja ..
发布时间:2018-05-31 18:37:18 分布式计算/Hadoop

Hadoop namenode:单点故障

Hadoop架构中的Namenode是单点故障。 拥有大型Hadoop集群的人如何应对这个问题? 是否有行业认可的解决方案能够很好地工作,其中一个次要的名称节点接管主要节点失败的情况? 解决方案Yahoo在特定推荐中针对不同群集大小的配置设置采取了NameNode失败考虑到。例如: Hadoop集群中的单点故障是NameNode。虽然任何其他机器(间歇或永久)的丢失不会导致数据丢 ..
发布时间:2018-05-31 18:33:54 分布式计算/Hadoop

Datanode无法正确启动

我试图以伪分布模式安装Hadoop 2.2.0。虽然我试图启动datanode服务它显示以下错误,任何人都可以请告诉如何解决这个问题吗? * * 2 ** 014-03-11 08:48:15,916 INFO org.apache.hadoop.hdfs.server.datanode.DataNode:Block pool (存储ID未知)服务本地主机/ 1 ..
发布时间:2018-05-31 18:32:43 分布式计算/Hadoop

hadoop如何决定有多少节点将执行映射和减少任务

我对hadoop很陌生,我正在努力理解它。我在谈论hadoop 2.当我有一个我想要做MapReduce的输入文件时,在MapReduce程序中,我会说Split的参数,所以它会像分割一样完成许多地图任务,对吧? 资源管理器知道文件在哪里,并将任务发送给有数据的节点,但是谁说有多少节点将完成这些任务?在映射之后有洗牌,哪个节点将执行一个减少任务由分区器决定谁做一个散列映射,对吧?有多少节点可 ..
发布时间:2018-05-31 18:31:42 分布式计算/Hadoop

Hadoop 2.0数据写入操作确认

在下面的图片中,当写确认被视为成功时? 1)将数据写入第一个数据节点? 2)将数据写入第一个数据节点+其他数据节点? 我在问这个问题,因为我在YouTube视频中听到两个相互冲突的声明。一个视频报道说,一旦数据被写入一个数据节点&其他的视频报道,只有在向所有三个节点写入数据后才会发送确认信息。 第1步客户端通过调用DistributedFileSystem上的create( ..
发布时间:2018-05-31 18:31:40 分布式计算/Hadoop

有0个数据节点正在运行,并且在此操作中不包含任何节点

我建立了一个多节点Hadoop集群。 NameNode和Seconaday namenode在同一台机器上运行,并且群集只有一个Datanode。所有节点均在Amazon EC2机器上配置。 以下是主节点上的配置文件 从属 54.68.169.62(从节点的公共IP地址)$ b(主节点的公共IP地址) $ b 54.68.169.62 $ b core-site.xml ..
发布时间:2018-05-31 18:26:45 分布式计算/Hadoop

Hadoop Namenode故障转移过程如何工作?

Hadoop定义指南说 - $ b 每个Namenode运行轻量级故障转移控制器进程,其 作业是监视其Namenode失败(使用简单的 心跳机制),并在namenode 失败时触发故障转移。 blockquote> 一个namenode怎么能运行某些东西来检测它自己的失败? 谁向谁发送心跳? 这个过程在哪里运行? 它如何检测namenode失败? or ..
发布时间:2018-05-31 18:22:52 分布式计算/Hadoop

找到接口org.apache.hadoop.mapreduce.jobcontext,但是当其他类工作正常时,一个类的类预期错误

我有一个jar,其中一个MapReduce类工作正常,而具有相同结构的另一个类 - 正确使用Tool,使用getConf()等 - 失败,出现错误'找到接口org.apache.hadoop.mapreduce。 jobcontext但是班级预期'。 我应该寻找哪些具体的地方来解决这个问题? 只要有任何帮助/线索就会很棒! 编辑:其他有同样问题的人(没有回答还没有在线程上): https ..
发布时间:2017-07-30 17:57:07 Java开发

重用Hadoop的有效code火花?

嗨,我已经写在Hadoop的code,现在我试图移植到星火。映射器和减速器是相当复杂的。于是,我就重用的火花程序中已经存在的的Hadoop code的映射和减速类。谁能告诉我,我该如何实现这一目标? 编辑: 结果 到目前为止,我已经能够重复使用的映射类火花标准的Hadoop字计数的例子,下面搜索结果实施 wordcount.java 进口scala.Tuple2;进口org.apache ..
发布时间:2016-05-22 16:47:20 其他开发