Hadoop的安全模式恢复 - 以大量的时间 [英] Hadoop safemode recovery - taking lot of time

查看:137
本文介绍了Hadoop的安全模式恢复 - 以大量的时间的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我们正在运行我们在Amazon EC2集群。我们使用Cloudera的脚本设置的Hadoop。在主节点上,我们下面开始服务。

We are running our cluster on Amazon EC2. we are using cloudera scripts to setup hadoop. On the master node, we start below services.

609   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start namenode'
610   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start secondarynamenode'
611   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start jobtracker'
612 
613   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop dfsadmin -safemode wait'

在从机,我们运行下面的服务。

On the slave machine, we run the below services.

625   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start datanode'
626   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start tasktracker'

我们所面临的主要问题是,HDFS安全模式恢复走了一个多小时,这是导致我们的工作完成的延误。

The main problem we are facing is, hdfs safemode recovery is taking more than an hour and this is causing delays in our job completion.

下面是主要的日志消息。

Below are the main log messages.

1. domU-12-31-39-0A-34-61.compute-1.internal 10/05/05 20:44:19 INFO ipc.Client: Retrying connect to server: ec2-184-73-64-64.compute-1.amazonaws.com/10.192.11.240:8020. Already tried 21 time(s).
2. The reported blocks 283634 needs additional 322258 blocks to reach the threshold 0.9990 of total blocks 606499. Safe mode will be turned off automatically.

第一条消息被扔在任务跟踪器登录,因为作业跟踪器没有启动。因为HDFS安全模式恢复作业跟踪器没有启动。

The first message is thrown in task trackers log because, job tracker is not started. job tracker didn't start because of hdfs safemode recovery.

第二条消息是在恢复过程中抛出。

The second message is thrown during the recovery process.

有什么我做错了什么? 多少时间正常HDFS安全模式恢复需要? 会不会有任何加速,直到被工作跟踪器开始没有启动的任务跟踪器? 是否有亚马逊的集群上任何已知的Hadoop的问题?

Is there something I am doing wrong? How much time does normal hdfs safemode recovery takes? Will there be any speedup, by not starting task trackers till job tracker is started? Are there any known hadoop problems on amazon cluster?

感谢您的帮助。

推荐答案

在安全模式下花费的时间通常是成正比的簇的大小。也就是说,正常时间是分钟级的最多,而不是几小时。有几件事情来检查。

The time spent in safe mode is usually proportional to the size of the cluster. That said, normal time is on the order of minutes at most, not hours. There are a few things to check.

  1. 在确认所有数据节点都正确射击了。这是正常的数据节点需要几秒钟或几分钟进行了大量的块中汇报,检查数据节点日志,看看期间发生了什么启动。
  2. 确保你有足够的名字节点的线程(dfs.namenode.handler.count在HDFS-site.xml中),以便能够采取要检查数据节点的数目照顾。默认值是10,它应该是细群集多达20个节点左右。除此之外,它可能是有意义的增加这一点。您可能会看到数据节点日志,将表明这发生的重试。这似乎有什么重试消息,以表示对我来说(例如,重试21次)。

希望这有助于。

这篇关于Hadoop的安全模式恢复 - 以大量的时间的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆