方案之道:机房搬迁

2020-11-06 15:02:15 编辑: 云巅英雄 来源:中信云
前言
    机房搬迁,是运维工作中非常艰巨的工作,需要有资产管理、配置管理、应用关联系统这些基础信息,需要存储、网络、服务器这些设备搬迁的方案,需要项目管理、厂商管理、沟通管理这些软技能,是一个综合性重大任务。自己经历过3次大的搬迁,将一些心得总结一下。
批次
    搬迁的核心目标是减少对业务的影响。首要的、也是最重要的任务是确认批次。银行传统架构是围绕着存储的灾备技术,建立的两地三中心架构。确认批次,一般是先要划分服务器群,从一个存储设备开始,确认与之关联的交换机设备,再到所连接的服务器。 还有一个维度是围绕网络设备。搬迁前一般在新机房,预先搭建一套新网络设备,但如果要迁移原有的网络设备、波分设备,那就要围绕这网络设备,构建一个服务器群。
 
     决定批次的另一个要素,是重要程度排序,将7*24的关键业务,作为核心考虑要素,以缩短其停机时间为目标,设计搬迁计划。
 
    第三点,是项目管理中的最长路径问题。一般关机顺序是,分区关机、服务器管理、存储关机;物理搬迁,开机时是存储开机、物理机开机、小机开机。这样,就要将最关键系统从关机时间到开机时间的这个时间,作为关键路径考虑。
 
其他原则:
1、每次搬迁数量在“可控”范围内,尽量做到批次时间不重叠,保障大家“一次只做一件事,一次性做好”
2、与搬迁公司对接,确认好搬迁批次,与车辆批次的关系。
 
四线问题
    搬迁工作,最繁重,也是最容易出问题的,就是四线问题:网线、光纤线、电源线、内部连线。这是对数据中心日常的配置管理的一次大考,是机房准备工作是否充分的一个核心考察项,也是对现场组织能力、应变能力的一大考验。
1、网线:核对原机房的IP和信息点,在新机房申请信息点,布放网线,测试网线,搬迁后插网线,网线绑扎,开机后测试IP、测试连通性。这一长串围绕着网线的工作,是整个搬迁工作中耗时最长的工作。尤其现在是云计算时代,使用了大量的trunk替代了传统的access,给信息点测试带来了很大的难度。
 
2、光纤线:机房中插线最密集的设备,是光纤交换机;决定某个系统搬迁成功的最关键要点,是数据库能正常连接到存储;数据中心最难维护的配置管理,是存储、到交换机、到系统、到灾备之间的关联关系(相对于服务器等设备,业界存储管理的工具最缺乏)。光纤线插的有问题,将大大延缓系统启动的时间;光纤线差错,已经开机的系统将无法识别存储,需要在光纤链路恢复后,重启扫盘。
 
3、电源线:数据中心一般很重视网线和光纤线,都有相应的标签规范。但电源线往往不做标签,简单绑扎在一起。但如果一个机柜中出现部分设备搬迁,部分设备不搬,没有电源线标签,将给拔电源线带来很大麻烦。
 
4、内部连线:小机、SAN存储设备都有大量的内部连线,需要专业的厂商来布放、插拔、需要留出足够的时间,例如某高端存储,搬迁前后,线缆的相关工作需要2-3小时。
 
应急预案
    运维工作,是一个典型的逆向思维过程,所有的变更,都以失败为假设前提;搬迁的所有任务,都以出问题为假想指标,尤其是每个关键任务,都需要准备应急预案。以下是我们常使用的应急场景。
 
1、存储无法关闭。
2、搬迁后,存储无法启动。将影响整个搬迁进度,影响关键系统的开机时间。
3、服务器无法启动。
4、数据损坏。  需要保障所有系统,搬迁搬迁前有完整的数据备份。
5、少搬设备,应该搬迁的未搬。
6、多搬设备,不应该搬迁设备被下电。
7、误操作,例如碰到不搬迁设备的线缆。
8、网络信息点不通。
9、光纤链路不通。
10、硬件故障。
11、 机房中没有手机信号。
 
无法启动问题
    服务器无法启动,是搬迁中一个重大问题,除了常见的硬件损坏外,还有很多可能的原因,以下是2个例子。
 
问题1:搬迁后,某小机的分区不能启动。
分析:通过HMC检查,发现启动过程中hang死,检查启动信息,发现找不到硬盘,而2块硬盘同时出问题不太可能。
解决:每个小区分区有1个SAS卡,SAS松动,造成2块硬盘都找不到。
 
问题2:搬迁后,某PC服务器不能ping通。
解决: 1、ping不通原因是静电导致网卡通信异常,释放静电后解决。
2、重启后,服务器依然无法启动,原因是光驱里有光盘,第一启动项是光驱,将光盘弹出后,可以恢复启动。
 
预防:
1、配置console方式,实现带外管理,这样可远程处理不能启动问题:对于PC服务器,通过BMC配置LIM;对于小机,配置HMC;对于虚拟机,为低权用户用户增加console权限。
2、常见无法启动原因:有光盘并设置了光盘启动、有磁带并设置了磁带启动、小机sas线松动。
沟通问题
   现在是微信时代,搬迁准备阶段,我们会建立搬迁群进行项目组内沟通,将搬迁厂商、设备厂商、管理员、机房人员等等相关人员都加入进来,进行沟通协助。
    搬迁开始前,准备搬迁话术,汇报路径、并进行桌面演练。 其中话术主要包括3类。(1)【信息发布】 (2)【信息反馈】 3【问题反馈】。为了便于管理,外每项任务都进行编号。
 
  其中对于容易出现歧义的操作,要统一话术,例如对于小机的开关机。
1、管理员关机:系统管理员在操作系统中运行shutdown。
2、系统组关机: HMC管理员通过HMC关闭整台服务器
3、下电: 机房拔掉机器电源
4、加电:机房给服务器插上电源线
5、开机: HMC管理员激活主机
6、启分区:HMC管理员启动分区
 
另外,对于机房中信号不好的问题,要提前准备应急的手机;对于手机没电问题,要准备移动充电器。
 
脚本化
    搬迁一般系统很多,搬迁后的系统比对,是一个非常重要的环节,可以发现潜在的问题。目前我们是通过搬迁秦通过脚本抓取数据,搬迁重启后,通过脚本进行比对,全面检查各类问题。以下是脚本的一些考虑因素:
 
1、针对Unix和linux,需要考虑各版本差异,例如RHEL5月RHEL6的ls的输出的项目不同,会造成脚本读取的目录名出现问题。
2、脚本健壮性,要求可重复执行,尤其是搬迁后的比对数据,要解决重复执行问题。
3、要比对静态配置,过滤掉动态输出,例如netstat中的动态信息,lsattr的busintr信息都要过滤掉。
4、AIX重启后执行prtconf,会出现分隔符不同的问题。
5、当比对脚本失效时,需要有手工快速进行比较。  diff <目录A> <目录B>
6、服务器重启后,errpt有重启的提示,diff比对会报错。需要过滤重启记录,或者只抓取PH,PS类型的告警比对。
7、对于小机,lsdev的输出有从available变为define状态的情况, 包括磁带、CDROM等。
8、对于外置存储的检查,需要通过lspv检查磁盘信息,通过powermt检查链路信息。
9、如果搬迁的是灾备系统,需要考虑VG是否自动激活,文件系统是否自动mount的因素。
 
项目管理
   对于搬迁,需要选择一个强有力的项目经理,进行整体把控。
   搬迁过程中,需要在各个时间断,在机房和变更室,都有牵头人进行整体进度把控。
对于搬迁的职责界定,必须清晰明了。最容易出现纠纷的,是搬迁厂商和维保厂商不是一家,设备设备谁来关机,谁来加电,硬件故障如果界定责任等。
   对于各方面的协调工作,需要建立一个沟通计划,包括总控表、定期开会、核心团队等。
   机房环境准备:机柜上架图、用电量评估、线缆准备、存储做电、搬迁用的电梯等准备。
   标签:对于搬迁的设备、搬迁涉及的机柜都制作标签。
本站文章均为华创云鼎摘自权威资料,书籍,或网络原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,我们欢迎您分享,引用和转载,我们谢绝直接复制和抄袭!感谢...
我们猜你喜欢