之前有篇文章说到了服务器因为实验室停电要关机,停电结束后,就又要把服务器重新启动。
唉,这又是一路的磕磕碰碰啊~
先说说关机
关机这里还算好说
从管理节点对所有非存储节点执行如下代码就好
1 | ssh nodename "shutdown -t 30" |
写一个循环do就好了。先关闭计算节点再关闭IO节点。最后我们将存储节点的硬盘弹出,使用umount就好。
然后按照顺序关闭掉存储的电源就好了,要注意有的存储是主从分布的。要先关掉主机存储再关机从柜
然后就开始关掉总电源和空调就好了。
点击查看详细内容,里面是魔鬼哦
share管理着pool,pool2管理着pool3.temp单独,但是电源开关在后面。说起来,居然还有一个空调要自己手动关机,用它的屏幕上的information键,长按让他的运行状态从运行变成关机,
然后松手,等待它自动关机,怎么一开始设计的时候还有这种历史残留的不人性设计啊!!!!
再说说开机
开机的时候可真的是整了好久啊。先说说硬件方面的东西吧
开机的时候使用kvm机子去查看各个节点是否正确开机了,从no power状态到idle状态就算是开机了。
前面的老一批服务器我还算熟悉,可是新的那一批服务器,一开始我自认为按一下那个蓝色的小光标就算开机了,
可是我还是想的太天真了,那个绿色的闪烁灯你也要长按到它不再闪烁保持常亮才算是真的开机,闪烁状态的指示灯
并不代表它开机了,我也不知道dell为什么要这么设计,这种模式的指示灯是有什么特殊的用意嘛?
难道是拿来提醒用户节点机器自检正常,然后请长按按键来开机?????
谁知道呢?不过这个坑算是踩过去了。。。。。。
————————————————————————
再来说说存储挂载和服务这一块的坑吧
主从储存柜这一块依旧是怂的要死,根本不敢碰存储,生怕瞎整把存储的文件给整没了。
感谢师兄的付出,然后说一下服务这一块的东西。
总之就是一整套clush过去启动firewalld,sshd和nfs-server三个服务。
记得重启存储节点的nfs服务,其实nfs服务之前有个rpcbind服务。每次重新处理存储的时候
这个服务都会变动一部分信息,导致nfs服务需要重新启动来进行匹配
1 | service nfs-server restart |
之后就是clush对其他节点进行挂载了,一路走过去就完事了
然后就到了万恶的BeeGFS存储环节了。
这里我们遇到一个问题。
1 | mount:/0datbs:/dev/sdb already mounted or mount point busy. |
这个问题我一开始以为是磁盘的RAID出现了问题,后来在师兄的帮助下,才知道原因
磁盘在启动过程中,并不会按照我们所第一次命名好的状态来进行启动,所以在挂载磁盘的时候就会出现上述报错
这里我们推荐使用uuid来对分区进行挂载,因为每个分区都一个唯一的UUID。这样子就不会发生分区识别混乱了。
这些UUID都存储在disk文件下面的uuid文件夹下面。
当然你也可以使用blkid来获取这些信息。
解决完这些之后,我们需要重启很多服务,其中最重要就是beegfs-client这个服务了。
当然保险起见建议从头将beegfs所有服务都重启一遍最好。
当然处理玩这些,我们还需要解决一下slurm的相关服务哦。
PS
** 服务器重启之后,mysql服务也需要重启,这里使用root账户登陆mysql 输入 set global local_infile=ON; 等待mysql给出Query OK, 0 rows affected (0.00 sec) 的回复即可PS:
2020-08-18补充
这一次服务器非正常断电,又总结到一些奇奇怪怪的经验,即使如此,也要把服务器的闸给关了。
参考资料
1.https://unix.stackexchange.com/questions/349118/how-to-mount-by-uuid-without-using-etc-fstab
2.https://blog.csdn.net/kiwi_kid/article/details/44307287
致谢
感恩师兄!!!!