大型数据中心IT系统搬迁项目实践感想
—鼎诚服务,细节为先
随着经济的发展,企业对IT的要求也越来越高,有些企业IT中心对自身的业务要求也越来越不能满足,也有些企业随着业务的发展或者经营场所的变化需要对IT中心机房调整。因此,企业IT中心机房搬迁项目也就越来越多,华创云鼎最近一年来就陆续承接了金融等行业10来个以上的大中型数据中心机房的搬迁项目,其中有Z总行及各分行、光大银行、平安证券、中国证券登记结算中心等中心机房的搬迁就具有搬迁项目的代表性,我们也在为客户提供搬迁服务的过程中总结、完善并形成了一套科学高效的服务管理及实施方法,这套方法提取了技术服务过程中的普遍要素和共性特点,运用科学的方法论,对技术服务难点、风险等要素都做了分析和准备,即DCPM。它在所有服务实施的项目中得到体现,并是我们成功实施各类技术服务项目的管理基础。
IT中心机房搬迁项目是一类比较特殊的项目,涉及的要素也非常的多,PM在整个项目实施中对项目的掌控都有较高的要求,需要我们采用DCPM方法指导技术服务管理和实施工作。通过对各个项目阶段的科学规划和有效掌握与控制,从项目和实施管理的角度为客户技术服务的成功提供有力的保障。再加上华创云鼎的专业顾问人员的支持,保证了整个技术服务过程的成功,确保了客户对相关技术的理解和应用以及系统的稳定健壮运行。
基于以上关于搬迁项目的特点,有必要对这类项目的成功实施进行总结,有针对性地加以完善和客户化,为后续的搬迁项目提供有效的借鉴和帮助。
在今年执行的几个中心机房搬迁项目都是机房整体搬迁,设备种类涉及小型机、PCServer、网络、存储、安全等几百台设备的搬迁,而且涉及的业务众多,重要的核心业务,办公系统等。我们作为服务商需要在安全第一的前提下,在尽可能短的时间内完成所有设备的搬迁工作以及业务恢复工作,及时恢复业务的正常运行。
通过分析搬迁的特点,我们可以针对搬迁的难点及关键点进行可行性分析,并给出切实可行的解决办法。在我们所完成的这些大型的搬迁项目中,其特点可以归纳如下:
- 全业务设备搬迁,设备众多,系统复杂,业务多为核心业务;
- 客户业务数据非常重要,需要保证数据的完整性;
- 设备有超重、超高设备,需要制定详细的搬迁方案;
- 搬迁时间有特殊性,需要在停机时间内完成设备的搬迁、系统恢复等工作;
- 搬迁中涉及的人员众多,现场管理难度较大;
搬迁项目是一个系统性工程,需要在项目的启动阶段对项目进行细致全面的分析和制定切实可行的项目计划,以保障项目在实施阶段的顺利进行。因此,项目启动的越早我们就能有充足的时间了解客户的要求和对搬迁过程的期望,我们也就能对搬迁的各个环节有足够的准备和把握,从而降低项目实施环节的风险,并能及时就实施中出现的变化采取及时有效的措施降低由此带来的项目风险影响。
针对搬迁项目,在下面的计划阶段我觉得需要从以下几个方面入手:
- 搬迁团队的组建:为保证搬迁项目的顺利进行,我们需要组建项目组,并详细规范相关责任人的分工,有效利用资源,保证搬迁流程化,同时,根据搬迁项目的特点,在项目规划规划阶段和搬迁实施阶段的组织架构又不一样,其目的就是为了更好的保证不同阶段人员工作职责和分工的合理性和易管理;
- 现场调研:这是一个非常重要的工作,需要对新旧机房环境、设备的摆放位置、设备配置信息、逻辑结构、业务属性、设备的进出通道进行现场勘查和信息调研。根据机位的位置规划主机搬迁的顺序、搬迁路线和搬迁所需的设备和人力,在出现难题地点时,进行记录,几方商讨提出解决方案;
- 设备的检测和核实:在设备搬迁前对重要搬运设备进行硬件级和系统级的检查;对于发现的软、硬件故障,及时进行修复和更换,保证搬迁前设备状态正常;
- 标签的设计和粘贴:标签在整个搬迁项目中有三种,线缆标签、设备标签和包装箱标签,这些标签在搬迁中发挥着非常重要的作用。
- 线缆标签:由于搬迁中设备的种类繁多,设备之间的连接非常复杂,需要在搬迁之前对这些连线进行标识,以便设备到新机房就位后能尽快连接加电以尽快恢复系统和业务,因此,线缆的标签制作是一个非常重要的工作;
- 设备标签:为确保每台设备搬迁的起始位置、搬迁中设备识别和清点等,我们对每一台设备粘贴标签,每台设备有唯一的识别码,并标示设备的应用系统、序列号、新旧机房的物理位置以及设备高度、电源数、IP地址等,以便识别。通过这样一个小标签,在搬迁过程中工作人员就能获得各工作位置的信息,确保设备能准确无误的就位和恢复;
- 包装箱标签:在搬迁中我们会对所有设备进行包装,每个箱子中装的设备及数量各不相同,我们在每个箱体外面设计标签,标明箱中的设备标识和其他信息,方便和确保设备搬迁中包装箱中的设备能清楚的记录和清点。
题外话:标签的制作是一个比较繁琐的工作,如何准确快速的完成标签的制作就显得非常重要,尤其是设备达到几百上千台的规模,我们就需要采用一些技术手段来完成标签制作,华创云鼎在几十个搬迁项目的实施中建立了一套从设备连接信息表批量输出数据生成设备标签,这极大的减少了标签制作的工作量,并保证了标签制作的准确度。
- 材料的准备:对于搬迁项目中,我们需要准备搬迁相关的材料,比如包装箱、填充泡沫、胶带等。搬迁项目对业务恢复的时间有着严格的要求,而这些搬迁项目中涉及的设备非常多,搬迁中设备包装的时间是一个非常耗时的工作,我们定做了标准的包装箱,极大的减少了大量PCServer设备的包装时间,保证了搬迁的顺利进行。
- 搬迁次序:在搬迁中,我们根据客户业务特点和设备情况执行详细的搬迁批次,并与网络切换方案对接,与客户业务、系统及网络组不断的讨论和沟通,就设备的批次和顺序达成一致并形成搬迁实施方案。
- 搬迁实施计划书:这是一个搬迁的指导性基准文件,对搬迁中的各项问题进行了全面的阐述和约定,包括资源准备、分工职责、实施方案、风险控制等。
实施阶段是在项目启动后,我们对整个搬迁方案进行了不断的讨论和交流后形成共识而实施我们构想的阶段,我想实施阶段的重中之重是安全第一、其次是时间。这个是我们和客户一致的,我们的目标是在停机的时间内安全的将设备搬迁到新的机房并及时恢复系统。
在完成的搬迁项目中,我们没有发生一起设备物理损伤,没有一台设备因为搬迁不能恢复业务,每个项目都在要求的时间内完成全部设备的搬迁和系统的恢复,这些都得到了客户的肯定和赞许。
我想我们在项目实施中能保证设备的安全和及时恢复主要是对项目的执行做了充分的准备,为了保证安全,在实施前主要从以下方面来保证:
- 成熟的搬迁流程和操作规范保证安全和进度;
- 对关键数据备份确保数据安全;
- 现场备件准备保证设备硬件出现问题及时修复;
- 制定风险应对方案全面理清项目风险;
- 购买商业保险对不可控风险转移。
此外,为了保障项目实施能在有限的时间内完成,我们不断吸取历史搬迁项目的经验,不断完善我们的搬迁流程,并通过搬迁流程管理单控制搬迁进程,引进了流水线的流程化管理实施搬迁项目。
下面是我们一般的搬迁流程:
根据搬迁流程的各个环节,我们制定相应的管理单,对搬迁的各个环节进行控制,管理单在各个环节流转,保证了设备搬迁像生产线一样流动起来,有限保障了大量设备能在很短的时间内完成。例如,Z总行TEST中心300多台小机存储设备在2020年5月1日期间4h全部完成搬迁,北京分行200台设备也在2018年9月分4批次完成搬迁。
我们能够在非常短的时间内完成所有设备的搬迁工作而没有任何的设备损坏、遗失等,并保障客户系统的及时恢复,主要是我们在下面实施之前与客户保持了充分的沟通,就项目实施的各个环节进行了细致的分析和讨论,形成了详细的实施方案,此外,我们丰富的搬迁项目的实施经验和优秀的项目团队保证了实施过程中各个环节的有效管理,确保了实施中设备与人员的安全以及项目的实施进度。
工程实施,特别是搬迁项目的实施过程中总会存在一定的风险和不可预测的因素。通过分析潜在的风险并采取有效的应对策略可以提前排除一些风险或者最大限度的减小风险带来的损失,保证业务系统的运行不受影响。
因此,风险的分析和应对显得尤为重要,一般搬迁项目的风险主要有:
通过分析风险,我们能够提前发现项目实施中可能存在的问题,并且能将可能导致严重后果的一些问题提前消除,同时,经过项目组成员的头脑风暴,也能加深团队成员对整提项目和项目实施的细节有比较清晰的认识。当然,风险的分析也能提醒客户对项目的实施中一些关键点重视,在具体实施中能够积极配合我们全力保障项目的成功。
搬迁项目的一个非常重要的主要问题是项目的变更,由于变更给项目的搬迁进度和实施的成本都会带来影响,有些是可能严重影响进度和成本的,在我们操作的这几个搬迁项目中,项目的中的变更经常发生,作为项目的PM需要对客户的变更进行评估并给出相应的方案,拒绝、接受,还是形成新的服务,这些都考量PM的智慧和问题的处理能力。
1、搬迁内容的变化:
在项目的实施中,客户会经常有之前没有考虑进搬迁清单的设备需要搬迁,还有一些额外的办公设备等,有些可能不是少量的,可能导致工作量大大超出原有计划,也增加了搬运费用。这些变更会极大的影响搬迁的进度、成本,增加项目实施风险。
对于这些变更,我们一方面要理解客户的需求,另一方面要让客户理解变更对搬迁带来的影响。我们需要评估变更的影响,并针对不同的影响程度制定相应的应对策略。
为了尽量减少实施中的变更,需要在项目启动时与客户充分沟通,尽量能分析客户对搬迁项目的范围并和客户确认,针对客户现场增加设备的要求,我们需要有一个变更的流程来影响客户。对于变更可能对现有搬迁可能导致搬迁时间会延后,并且,搬迁成本会有大幅度的增加,这些都需要评估并与客户沟通项目进度的影响。
2、设备信息的不准确
由于搬迁的设备到新机房后要马上要投入运行,因此认真的调研和规划是必不可少的。那么客户提供的设备信息的准确度对我们项目的规划和系统的及时恢复就显得非常重要,但很多时候,客户提供的搬迁设备信息可能不准确,这对我们的搬迁工作的风险是非常大的。因此,每次搬迁项目的准备阶段,我们都需要花费了大量时间在原有机房设备的调研工作上,我们需要经过多次的核对以确保数据的准确性。
3、规划变更
搬迁项目由于客户规划不规范或者规划本来就没有做好导致我们做搬迁方案和搬迁实施中可能由于规范的变更给我方的工作带来很大难度,导致了很多无用功。
在调研的初期阶段,我们会对新机房的机柜放置,设备放置,电源供电方式、IP地址和VLAN划分等一系列规划。基于这些规划,我们来指定详细的搬迁计划。而做设备搬迁计划涉及的限制因素太多(如机柜利旧,电源逆变器搬迁,电源分配,VLAN规划等等),需要花费了大量精力,整个项目组花了好几天的时间才完成,还要与客户做了认真沟通和确认。然而在真正实施前以及实施过程中,客户都可能由于某种原因对最初确认的规划做大量的变更,很多地方甚至推倒重来,不仅增加了工作量和工作难度,也使之前的很多工作成果付之东流。
比如,某企业客户在计划阶段就由于多次对搬迁设备的批次和顺序变更导致实施方案变更,从而导致我们粘贴的标签作废,而在设备搬迁到新机房就位后由于客户新机房网络设备安装错误导致上架好的设备重新调整机柜,影响到整个项目的进度。同样在其他搬迁项目中,规划的变更都会或多或少的发生,那么,作为项目团队需要做好充分的沟通和详细的方案设计并经客户认可,以此来减少客户的变更,当然,对于变更,如果能事先就有严格的变更流程增加变更的流程规范性以此让客户理解变更的成本。
4、布线和理线施工
搬迁项目中涉及最多的一项工作可能是光线线缆的布线和机柜线缆的理线工作,而这块的重要性和工作量的巨大。在项目计划阶段就需要明确该项工作的责任:
- 布线和理线的分工界面要清晰
- 线材的准备要提前到位以免影响工期
- 布线标准和规范要提前确定好,以免返工
- 标签规范要提前确定
- 布线和理线时间要预留充足的调整和测试时间
一般,搬迁项目的启动之初,我们的主要精力都放在设备的搬迁上,主要考虑的是怎样调研和规划得更充分,如何在搬运环节不出任何差错,保证将设备完好的搬迁到位,并保证马上投入运行。针对项目中可能的变更带来项目实施的工作量和难度则需要有一个提前的预判,对可能发生的问题有相应的应急预案。同时,需要对项目中的一些细节都要充分的估计。
搬迁项目的设备繁多,种类复杂,用户需求反复变更,应用允许中断的时间很短,实施难度非常大,需要与客户协调的工作很多,作为机房搬迁工作的总协调服务商,负责总体进度控制、资源确认、实施协调等工作。主要完成需求清单附表中的设备搬迁工作,包括制定搬迁实施方案、风险分析报告以及应急方案,负责搬迁环境的勘查、路线设计、搬迁物资工具准备;负责搬迁前硬件检测、设备核实、下架拆卸、标识、搬迁、运输,装开箱登记、核查、上架安装、等物理搬迁工作,协助进行设备调试,准备必要的备机备件,提交项目管理及工作流程有关报告。客户对我们的工作也很认可,也为后续其他项目的入围和合作打下了深厚的基础。
每个项目搬迁没有发生设备丢失、损坏、掉包等事故,都按照计划完成各阶段工作,从中,我们体会也很多,要想比较完美的完成这样一个系统工程,需要我们做好以下事情:
- 沟通,及时有效的沟通;
- 细节,细节决定成败;
- 流程,通过流程提高项目效率;
- 控制,实时掌握进度并及时调整方案;
- 确认,减少我们的“想当然”;
- 合作,分工合作,规范作业。
在华创云鼎承接的这些搬迁项目中,项目组密切协作,经常是不分日夜的艰苦奋战,克服了种种困难,最终保证每个搬迁项目的设备无一丢失,以近乎于零的故障率,顺利完成搬迁和验收。搬迁项目是对一个PM的历练,也是对每一个项目组成员的考验,职业规范、体力等等,经历这些项目的实施,让我们感受到部门、同事之间的无间配合,在此真诚感谢每一位参与项目的同事和关心项目实施的领导对我们的大力支持,感谢大家放弃元旦、五一、十一等节假日的时间支持项目,也感谢各位的家人对我们工作的理解和支持!
华创云鼎根据十余年的丰富的搬迁经验,总结搬迁中关键点控制自研开发了“数据中心迁移管理信息平台”,旨在对复杂搬迁项目的整体过程的关键环节进行有效的实时控制和管理,并展示整个搬迁实施的全景过程。
由于搬迁项目是一个项目实施时间长、项目重要性高、而且风险极大的工程,整个甲乙双方的项目团队都比较辛苦,作为实施责任主体的信息技术部也是一个出彩的机会,华创云鼎适时提供搬迁易企秀制作以宣传客户部门,为客户提供整体的制作方案。目前制作的易企秀案例: