hadoop2相关内容
你好,我是Hadoop的新手,对版本名称感到困惑,我应该在1.x(很好的支持和学习资源),2.2或0.23中使用哪一个。 我读过hadoop从v0.23完全转向YARN( link1 )。但与此同时,它在网络上的所有hadoop v2.0正在转向YARN( link2 a>),我可以在Hadoop 2.2本身中看到YARN配置文件。 但是由于0.23似乎是我的最新版本,2.2还有 支
..
在阅读Apache Hadoop文档,对于理解二级节点的责任有一点点困惑。检查点节点 我在 Namenode 角色和责任上很清楚: NameNode将对文件系统的修改作为附加到本地文件系统文件的日志进行修改。当NameNode启动时,它从图像文件fsimage中读取HDFS状态,然后应用编辑日志文件中的编辑。然后它将新的HDFS状态写入fsimage,并使用空的编辑文件开始正常操作。由
..
我在Ubuntu 14.04 LTS机器上安装了Hadoop 2.6.0。我能够成功连接到 http:// localhost:50070 / 。 我试图连接到 http:// locahost:50030 / 我在 mapred-site.xml中有以下内容 mapred.job.tracker localhos
..
在 Namenodes和Datanodes 主题下的“ Hadoop权威指南”中提到: namenode管理文件系统名称空间。它维护 文件系统树以及 树中所有文件和目录的元数据。这些信息以两个文件的形式存储在本地磁盘上:命名空间图像和编辑日志。 辅助名称节点,尽管它的名称不作为名称节点。 它的主要作用是定期将命名空间图像与 编辑日志合并,以防止编辑日志过大。 我对这些文件
..
我试图在Ubuntu上安装Hadoop的单个节点设置。 我开始遵循说明在Hadoop 2.3文档。 但我似乎缺少一些非常简单的东西。 首先,它说 要获得Hadoop发行版,请从其中一个Apache下载镜像下载最新的稳定版本。 然后, 解压下载的Hadoop发行版。在发行版中,编辑文件conf / hadoop-env.sh以至少将JAVA_HOME定义为Java安装
..
我将输入和输出文件夹作为参数传递给mapreduce字数统计程序。 获取以下错误: HTTP状态500 - 请求处理失败;嵌套异常是 java.lang.IllegalArgumentException:AWS访问密钥ID和秘密 访问密钥必须指定为s3n URL的用户名或密码 (分别),或者通过设置fs .s3n.awsAccessKeyId 或fs.s3n.awsSecret
..
我正在使用 Hadoop-2.4.0 ,我的系统配置是24核心,96 GB内存。 我正在使用以下配置: mapreduce.map.cpu.vcores = 1 yarn.nodemanager.resource.cpu -vcores = 10 yarn.scheduler.minimum-allocation-vcores = 1 yarn.scheduler.max
..
我有100个mapper和1个reducer在一份工作中运行。如何提高工作绩效?根据我的理解:使用组合器可以在很大程度上提高性能。但是,我们还需要配置哪些内容才能提高作业性能?解决方案 使用此问题中的有限数据(输入文件大小, HDFS块大小,平均地图处理时间,Mapper插槽数量和缩小簇中的插槽等),我们不能提示提示。 但是有一些通用的指导方针可以提高性能。 如果每个任务的持续时间少于
..
我是Ubuntu 16.04上的一名虚拟人物,拼命尝试让Spark工作。 我试图解决我的问题,使用在这里找到的答案在stackoverflow但我无法解决任何问题。 使用命令 ./ spark-shell 从bin文件夹启动spark我收到此消息 WARN NativeCodeLoader:无法为您的平台加载native-hadoop库......在适用的情况下使用builtin-ja
..
Hadoop架构中的Namenode是单点故障。 拥有大型Hadoop集群的人如何应对这个问题? 是否有行业认可的解决方案能够很好地工作,其中一个次要的名称节点接管主要节点失败的情况? 解决方案Yahoo在特定推荐中针对不同群集大小的配置设置采取了NameNode失败考虑到。例如: Hadoop集群中的单点故障是NameNode。虽然任何其他机器(间歇或永久)的丢失不会导致数据丢
..
我试图以伪分布模式安装Hadoop 2.2.0。虽然我试图启动datanode服务它显示以下错误,任何人都可以请告诉如何解决这个问题吗? * * 2 ** 014-03-11 08:48:15,916 INFO org.apache.hadoop.hdfs.server.datanode.DataNode:Block pool (存储ID未知)服务本地主机/ 1
..
我对hadoop很陌生,我正在努力理解它。我在谈论hadoop 2.当我有一个我想要做MapReduce的输入文件时,在MapReduce程序中,我会说Split的参数,所以它会像分割一样完成许多地图任务,对吧? 资源管理器知道文件在哪里,并将任务发送给有数据的节点,但是谁说有多少节点将完成这些任务?在映射之后有洗牌,哪个节点将执行一个减少任务由分区器决定谁做一个散列映射,对吧?有多少节点可
..
在下面的图片中,当写确认被视为成功时? 1)将数据写入第一个数据节点? 2)将数据写入第一个数据节点+其他数据节点? 我在问这个问题,因为我在YouTube视频中听到两个相互冲突的声明。一个视频报道说,一旦数据被写入一个数据节点&其他的视频报道,只有在向所有三个节点写入数据后才会发送确认信息。 第1步客户端通过调用DistributedFileSystem上的create(
..
我正在学习MapReduce,但现在有点迷路了。 http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-客户端/ hadoop-mapreduce-client-core / MapReduceTutorial.html#使用情况 特别是这组指令: 编译WordCount.java并创建一个jar: $ bin / ha
..
顶点失败,vertexName = initialmap,vertexId = vertex_1449805139484_0001_1_00,诊断= [Task failed,taskId = task_1449805139484_0001_1_00_000003,diagnostics = [AttemptID:attempt_1449805139484_0001_1_00_000003_0 I
..
我建立了一个多节点Hadoop集群。 NameNode和Seconaday namenode在同一台机器上运行,并且群集只有一个Datanode。所有节点均在Amazon EC2机器上配置。 以下是主节点上的配置文件 从属 54.68.169.62(从节点的公共IP地址)$ b(主节点的公共IP地址) $ b 54.68.169.62 $ b core-site.xml
..
Hadoop定义指南说 - $ b 每个Namenode运行轻量级故障转移控制器进程,其 作业是监视其Namenode失败(使用简单的 心跳机制),并在namenode 失败时触发故障转移。 blockquote> 一个namenode怎么能运行某些东西来检测它自己的失败? 谁向谁发送心跳? 这个过程在哪里运行? 它如何检测namenode失败? or
..
我目前在运行 CentOs 的服务器上配置hadoop。当我运行 start-dfs.sh 或 stop-dfs.sh 时,出现以下错误: WARN util.NativeCodeLoader:无法为 加载native-hadoop库您的平台...在适用的情况下使用builtin-java类 p> 我正在运行Hadoop 2.2.0。 在线搜索引发了以下链接: http://b
..
我有一个jar,其中一个MapReduce类工作正常,而具有相同结构的另一个类 - 正确使用Tool,使用getConf()等 - 失败,出现错误'找到接口org.apache.hadoop.mapreduce。 jobcontext但是班级预期'。 我应该寻找哪些具体的地方来解决这个问题? 只要有任何帮助/线索就会很棒! 编辑:其他有同样问题的人(没有回答还没有在线程上): https
..
嗨,我已经写在Hadoop的code,现在我试图移植到星火。映射器和减速器是相当复杂的。于是,我就重用的火花程序中已经存在的的Hadoop code的映射和减速类。谁能告诉我,我该如何实现这一目标? 编辑: 结果 到目前为止,我已经能够重复使用的映射类火花标准的Hadoop字计数的例子,下面搜索结果实施 wordcount.java 进口scala.Tuple2;进口org.apache
..