网站地图    收藏   

主页 > 系统 > linux系统 >

解决Namenode异常停止后无法正常启动

来源:未知    时间:2015-04-28 09:27 作者:xxadmin 阅读:

[导读] hadoop namenode无法启动问题我在网上找了一下有很多问题,这个集群服务器碰到此问题就是比较大的问题了,下面我们一起来看看此问题解决办法吧. 背景: 公司在线上使用了CDH5 HA模式,有两...

hadoop namenode无法启动问题我在网上找了一下有很多问题,这个集群服务器碰到此问题就是比较大的问题了,下面我们一起来看看此问题解决办法吧.

背景:公司在线上使用了CDH5 HA模式,有两个Namenode节点,结果其中的Standby节点因为一些关于edits文件的报错异常停止了,并且在启动的过程中一直报告找不到各种文件.

刚开始怀疑问题可能只发生在Standby本身,因此尝试了bootstrapStandby来重新初始化Standby节点,但问题依旧.

而后来因为我尝试重启ZKFC(Zookeeper Failover)服务器,导致了Active节点进行自动切换,在切换失败后打算切换回去时,也无法启动服务了,报错跟Standby节点一模一样,于是整个Hadoop集群就挂了.

问题严重,在搜遍了整个Google都找不到任何有用的信息之后,只能求助于老大,最后,老大想到一个思路,就是将fsimage(元数据)文件与edits(编辑日志)文件都反编译成文本,查看里面具体有什么内容,为什么加载edits文件时会报错.

结果,这个思路给我们带来了曙光,并最终修复了整个集群.

环境介绍:

  1. idc2-server1: namenode, journalnode, zkfc 
  2. idc2-server2: namenode, journalnode, zkfc 
  3. idc2-server3: journalnode, resourcemanager 

具体过程:

首先,是Standby Namenode上出现以下错误,然后自动异常关闭了进程:

  1. 2014-11-11 02:12:54,057 FATAL org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer: Unknown error encountered while tailing edits. Shutting down standby NN. 
  2. java.io.FileNotFoundException: File does not exist: /user/dong/data/dpp/classification/gender/vw-output-train/2014-10-30-research-with-confict-fix-bug-rerun/_temporary/1/_temporary/attempt_1415171013961_37060_m_000015_0/part-00015 
  3.        at org.apache.hadoop.hdfs.server.namenode.INodeFile.valueOf(INodeFile.java:65) 
  4.        at org.apache.hadoop.hdfs.server.namenode.INodeFile.valueOf(INodeFile.java:55) 

自学PHP网专注网站建设学习,PHP程序学习,平面设计学习,以及操作系统学习

京ICP备14009008号-1@版权所有www.zixuephp.com

网站声明:本站所有视频,教程都由网友上传,站长收集和分享给大家学习使用,如由牵扯版权问题请联系站长邮箱904561283@qq.com

添加评论