case
方案中心
基于對于此次搬遷的各項需求,結合業務可持續性要求和行業內外聲譽,本次數據中心搬遷將遵從以下幾大原則:
1、規范性原則
滿足行業內外相關規定、中心機房布局及網絡規劃等要求。
2、 安全性原則
在保證信息系統穩定和數據安全的前提下實施機房搬遷。
3、業務影響最小化原則
搬遷方案考慮盡量減少停機時間,且停機時間盡可能安排在業務低谷時段或非服務時段,并制定合理且操作性強的搬遷方案、及有效的應急預案。
4、分步實施原則
搬遷工作涉及多套重要生產系統,為控制風險,應綜合考慮系統架構、系統關聯性、搬遷風險以及停機時間等因素,制定分步實施策略,合理安排各系統的搬遷順序。
5、 經濟性原則
充分考慮現有資產的有效利用,盡量保護已有投資,并合理投資滿足搬遷需要,提高實施的經濟性。
為確保本次搬遷項目的順利進行,本次搬遷項目工作參加的單位預計有:x x x、北京銀信長遠科技股份有限公司、支持廠商和其他參與方。
搬遷工作中各參加單位職責如表。
職責分配表:
參加單位 |
人員組成 |
職責 |
Xxx |
管理人員 業務人員 |
1) 負責本業務板塊系統搬遷的上傳下達協調、通知工作; 2) 負責組織機房搬遷后的本業務板塊系統業務測試工作; 3) 負責機房搬遷本業務板塊的對外宣傳和報備工作; 4) 對本業務板塊系統搬遷各階段工作成果進行確認。 |
北京銀信 |
項目管理、 技術人員 |
1) 負責整個機房搬遷工程的集成工作; 2) 負責與相關廠家進行商務談判,負責與相關廠商的商務協調工作,參與相關廠商的技術協調工作; 3) 在搬遷設計基礎上,組織機房搬遷相關方完成搬遷實施方案的細化; 4) 執行質量控制,確保機房搬遷實施方案的有效實施; 5) 負責機房搬遷項目組內部各小組間的協調工作; 6) 組織、監督、檢查搬遷項目組內各小組的工作任務; 7) 參加機房搬遷各個階段的工作; 8) 負責所有應用及數據庫系統的開、關機及數據備份及確認; 9) 保證搬遷設備、數據、系統在搬遷過程中物理安全; 10) 搬運設備; 11) 拆卸、安裝設備; 綜合布線整理,新、舊機房場地整理。 |
支持廠商 |
軟件系統提供商支持人員、硬件設備提供商人員 |
1) 保修期內硬件設備廠商人員參加搬遷工作,提供備件,保修期結束的硬件設備廠商按照合同要求參加搬遷工作; 2) 2)根據需要對搬遷工作進行現場支持或遠程電話支持。 |
運營商 |
客戶經理 技術支撐人員 |
1) 新申請線路及相關設備的安裝、調測; 2) 配合應用系統的割接、搬遷; 3) 保證網絡切換后,提供穩定的通訊服務。保證通訊線路正確割接。 |
為確保本次搬遷項目穩步、有序、順利地實施和完成,需成立機房搬遷工程領導小組,并由、、搬家以及其他提供技術支持的配合廠商等成立技術支持組,各組工作職責如下:
1. 搬遷工程領導小組:
1) 進行項目重大決策,控制項目總體規劃、項目進度等工作;
2) 負責把握項目方向,調動各方資源和相關外部資源,監督項目管理相關制度的執行;
2. 業務支持組:
1) 負責機房搬遷過程中的業務指導;
2) 負責機房搬遷的對外宣傳工作;
3) 負責進行系統搬遷后業務測試;
4) 準備搬遷應急的業務處理。
3. 技術支持組
各小組職責:
名稱 |
負責內容 |
技術支持組組長 |
1) 組織搬遷方案的細化; 2) 對各個小組進行協調、調度; 3) 組織搬遷工程的實施,使搬遷工作按方案進行; 4) 確認各階段工作是否按計劃完成; 5) 對搬遷工作的質量進行負責。 |
網絡組 |
1) 負責網絡遷移工作; 2) 維護新舊機房間,新申請的線路、原有線路網絡通暢; 3) 在舊機房保存網絡設備的配置,確認可以關機后,通知拆卸安裝組; 4) 在拆卸安裝組安裝完網絡設備后,負責對其進行配置、調試。 |
主機應用組 |
1) 在系統搬遷之前,對操作系統、核心參數、數據、數據庫進行備份。 2) 按照搬遷方案,執行數據庫和應用系統的檢查、備份、關閉、開啟; 3) 在系統從舊機房搬遷到新機房后,對業務系統的運行狀況進行監控。 |
拆卸安裝組 |
1) 負責關閉主機設備、磁盤陣列、網絡設備和存儲設備的電源,將其從機柜上拆卸下來,首層包裝,交由設備搬運組進行搬運; 2) 將設備拆包裝,裝入新機房指定機柜,連接好所有連線并按照機房標準布線規范對連線進行整理,開啟電源,啟動操作系統,在驗證設備運行正常后,交主機應用組或網絡組; 3) 對新舊機房搬遷后的現場進行清理。 |
設備搬運組 |
1) 負責提供包裝材料; 2) 負責將設備裝箱; 3) 負責設備從舊機房搬運到新機房的指定位置; 4) 負責設備拆箱; 5) 保證搬遷設備在搬遷過程中物理安全。 |
現場支持單位 |
1) 保修期內硬件設備廠商人員參加搬遷工作,提供備件,保修期結束的硬件設備廠商按照合同要求參加搬遷工作; 2) 業務組進行搬遷后業務確認; 3) 綜合網上級中心局配合調試廣域網線路。 4) 運營商負責新申請線路及相關設備的安裝、測試,保證網絡切換后,提供穩定的通訊服務;保證通訊線路正確割接。 |
遠程支持單位 |
1) 提供技術指導; 2) 各系統應急指導。 |
后勤保障組 |
負責搬遷工作的后勤保障,包括搬遷通道的準備、搬遷保安工作。 |
新機房建設通過測試、驗收,達到集團總部相關標準要求,是實施本次搬遷工程的前提條件,按照機房設計和相關標準要求,搬遷前須對新機房的各項指標進行測試、檢驗。
在建筑安全方面,需要檢查機房地板、天花板、墻面、隔斷玻璃、安全出口的材料是否符合要求,工程質量是否符合要求。
在布線安全方面,電力布線、網絡布線的布線工藝是否達到要求,線纜質量是否達到要求。
在電氣方面,檢查內容包含以下幾個部分:
1. 需要檢查電力系統負荷、電力配線、配電柜、空氣開關的質量、電氣性能是否符合要求,配電線路是否按設計施工。
2. 直流電源系統的安裝、輸入、輸出是否符合設計要求。
3. 機房照明的供電方式和照度是否符合設計要求。
4. 交流工作地、直流邏輯地、安全保護地、防雷保護地、綜合接地等接地性能是否達到設計要求。
5. 消防報警、滅火系統是否達到設計要求。
6. 空調系統是否達到溫度、濕度、新風量的要求。
7. 防雷系統是否達到強雷區機房的要求。
8. 監控系統,包含門禁、設備監視等是否達到設計要求。業務準備
● 提前確定相關系統業務驗證單位,并將搬遷后業務驗證操作分工到人。
● 業務部門需制定詳細的業務驗證方案,下發到相關驗證人員,并做好明確的工作安排。
● 參與搬遷業務驗證人員在搬遷之前,必須認真閱讀搬遷業務驗證案例和要求,搬遷日按時到崗,業務驗證完畢接到撤退通知方可撤退。
● 編制技業聯合預案、業務應急預案,包括:啟動手工作業、上傳下達、主管單位匯報、輿情控制等。
聯系相關維保商做好搬遷專線遷移支持工作。
對舊機房的信息進行收集,例如服務器、網絡設備基礎信息,形成了此次搬遷的設備匯總信息。詳見附表切換演練測試
在系統搬遷前,對所要搬遷的關鍵設備需要進行主、備機或生產環境與應急環境間的切換演練測試。以驗證萬一在搬遷過程中出現設備故障的情況下,備用設備和環境能正常使用。
搬遷的主機及存儲設備上有大量的應用數據,保證在搬遷結束后為用戶提供連續的、有效的服務。搬遷需做好相應的設備保險和備份措施,提前根據各個設備進行綜合的測試,設備的重啟動試驗,并根據不同的用戶應用程序、數據庫以及用戶要求采取不同的技術方案與備份措施,滿足主機系統設備搬遷數據和設備的安全。
搬遷的數據備份包括數據備份與設備配置備份。
數據備份的內容為:
? 數據庫備份
? 應用數據及配置備份
? 重要的文件系統備份
? 系統備份
? 配置備份內容為:
? 網絡配置備份
? 存儲配置備份
? 主機分區配置備份
? SAN交換機配置備份
對于已經備份完成的備份集,需要在新環境進行恢復測試,驗證備份集的可用性。
搬遷前的設備配置備份、系統備份和數據備份非常重要,需要在n-1日晚上完成網絡設備、存儲設備、主機系統、數據庫的備份。
我們和聯合具有專業的IT設備搬運經驗的搬運來完成此次設備的運輸,搬運提供必須的起重機、叉車、平板推車多輛;提供必要的繩索(固定機器等用)、扣件、鋼管、設備搬運的包裝箱,海棉等。
按照所設計的搬運路線和機房設備的擺放位置,指導搬運將各設備推運至相應位置進行固定。以下是需要完成的工作概要:
? 現場勘測,確定搬遷路線;
? 配合物業管理人員對電梯承重的確認與檢查;
? 結合每段搬遷通道的具體情況和條件制訂具體搬遷方法;
? 物流察看搬遷現場環境;
? 確定新機房地板臨時改造和燒制臨時鋼制搬遷通道的具體事宜;
? 落實3噸位以上的叉車及運輸車輛2輛及熟練的叉車操作人員2名;
? 提供搬遷使用的設備底座和斜坡;
? 清除搬遷通道上的障礙物,確保搬遷工作能順利進行;
搬遷過程中,根據搬遷人員情況協調搬遷人員及車輛在各機房的進出;協調物業對電梯做一次全面檢查,以保障貨梯電梯的安全性。
為了安全、順利完成中心搬遷任務,新機房搬遷前擬從市州借調15人參與新機房的搬遷工作,所借調人員要求責任心強,吃苦耐勞,能加通宵夜班。具體分配如下:
1. 雙中心保障: 8人
與現有參與到現有服務臺監控日常保障中,實現雙中心、雙人、7*24小時值守和應急處理;
要求:信息技術出身。
2. 網絡保障: 3人
網絡支持貫穿整個新機房搬遷,不但要進行搬遷過程中各網絡細節的調測、實施,還需要進行搬遷過程中各種應用異常的協助分析、處理,擬在搬遷前抽調內網絡骨干加入中心支持的對伍,共同保障全信息網的平穩運行。
3. 搬遷隨工質量保障:4人。
要求:現場管理經驗豐富、細心,文字處理能力強。
職責:分別在新舊中心配合搬遷協助進行信息的核實、搬遷細節的關注、記錄、總結、提示等。內自建信息系統需要支持準備:
自建系統在搬遷的過程中同樣需要各支持廠商的準備。
為了將應用系統變更對搬家的影響降到最低,同時將全部精力投入到機房搬遷和保障,要求全在機房搬遷前2周左右開始,對各業務系統進行封版(含停止自助設備新增、密鑰打印等終端變更工作)。封版期間,原則上不再進行信息系統更新。如在系統封版期內,確需進行提交的重大變更,需報領導小組審批后進行緊急更新。封版不包含集團、總行安排的全國版本軟件升級。
? 根據搬遷規劃中的批次要求,對相應網絡或系統進行關停。
設備的關機嚴格參照圖4-4,先停主機再停存儲,最后停光纖交換機。項目組按照制定好的人員排班表進行如下過程:
(圖4-4設備停機流程)
1. 設備關機,按照停機的文檔的步驟進行設備停機及檢查。
2. 設備下架,按照制定的拆機順序表,按步驟進行設備下架工作。
3. 將設備運輸到設備的包裝區。
4. 對設備進行包裝,大型設備進行整體打包。
5. 按照制定好的裝車表,進行裝車,并按照實際情況制定裝箱單。
當設備到達新機房后,大批的設備和部件存放到暫存區之后,由于人多物雜,為了避免忙中出錯,有條不紊和高效的完成設備安裝等工作,搬遷的控制體系就尤為重要了,下圖就是設備卸載和安裝的控制圖。
1. 當設備到達新機房后,緊后就安排人員將設備卸載到制定的區域,在設備卸載時候,工作人員按照《裝箱單》將對設備的外包裝等物理狀態進行初步檢查,確認運輸過程是否對設備造成該損傷。
2. 按照搬遷控制圖流程和設備進場順序表,分組人員就設備運輸到機房的相應位置。
3. 根據指定的設備位置進行設備固定和安裝,按照制定的profile表以及線纜標示進行線纜連接。
在設備安裝及連接無誤之后,開始主機的上電測試,設備上電的順序和下電順序正好相反,請按照以下方法對設備按順序開機,參考圖《4-5開機流程檢查》:
1. 在設備開機前將對電源環境以及設備的連接狀態進行檢查。
2. 檢查通過之后,按照制定的設備開機順序表和開機步驟文檔進行設備起機。
3. 在設備正常啟動后,將進行設備功能測試及錯誤檢查。
4. 當設備啟動失敗后設備部件故障時候,啟動設備恢復預案和系統應急預案。
5. 當所有設備及應用啟動之后,進行系統功能檢查以及系統聯調。
. 開機流程檢查
1) 搬遷當日,網絡割接或恢復,系統開啟,完成后進行技術、業務驗證。
1) 由應用、系統、設備、網絡團隊對環境進行統一確認。
對新老機房的操作區域做衛生保潔:
? 對新老機房的操作區域做衛生保潔;
搬運完畢后物流人員對現場進行清理,將廢棄包裝、防塵、防震材料裝車。
需重點保障的系統,是我們工作的重中之重,僅僅從備件準備上是無法滿足降低風險要求的,還包括改變搬遷方式,搭建整體應用環境,提前部署新機房導軌。需要重點保障的系統涉及系統。
風險分析與應急方案
1. 由于機房搬遷涉及的設備和廠商較多,在進行機房搬遷時,搬遷現場最容易、也最可能出現局面的混亂而影響搬遷的質量;
2. 本次搬遷涉及到應用系統多,系統之間關系復雜,可能會由于搬遷順序不當,造成系統之間關聯關系被破壞,造成網絡系統長時間停止對外服務;
3. 由于電路連接較多、網絡結構復雜,搬遷時的電路割接相當繁瑣,在搬遷過程中可能因協調不暢造成不可預測的風險:如設備未能及時就位導致搬遷計劃時間延誤,甚至造成錯過電路割接時間或電路調試失敗,影響整個系統切割和使用。
1. 新舊機房互聯裸光纖、新中心機房新開通信專線、綜合布線信息點通信質量不穩定、延遲、抖動等;
2. 通信運營商線路移機割接或新增電路不能及時到位,導致搬遷不能正常進行。
1. 部份設備長期使用,在設備斷電后很可能不能正常重新啟動,造成系統無法恢復運行和交付使用;
2. 本次搬遷為異地搬遷,在物理搬遷過程中,由于運動、振動、抖動等不可預測因素可能對設備產生意外損傷或損壞,從而造成設備搬遷就位后無法正常使用。
本次搬遷存在單點故障的信息系統23個,涉及15套磁陣,26臺PC服務器。
搬遷過程中的設備風險主要有存儲系統(磁陣)的單節點故障風險、PC Server故障風險,系統風險按重要性分主要有數據庫故障風險、應用和中間件故障風險、操作系統故障風險,應用風險按重要性分主要有儲蓄系統故障風險、其他對外營業應用故障風險、內部處理和管理應用故障風險。風險主要來源于設備的單點故障較多,單點故障主要原因是設備沒有相應的備機或備用系統,在出現問題時只能利用更換故障部件去解決故障來恢復業務運行。風險規避
建立指揮溝通協調機制,確保搬遷過程中相關人員之間及時、有效溝通、協調、匯報,在項目開展過程中,參與項目的各個廠商和分包服務商要服從搬遷指揮部的統一指揮。在搬遷現場,所有的參與搬遷項目的工作人員都聽命于現場總指揮,避免搬遷現場的場面混亂。
利用集團為中心局域網改造項目購置的新設備,和內自購的骨干網匯接路由器及網絡列頭柜交換機,在新中心機房預先搭建一套新的網絡環境,并與舊機房導通,可以避免大部分老舊網絡設備需要搬遷的風險。目前主要的風險點在于際網搬遷期間的設備風險。需要準備交換機,作為際網搬遷期間原有設備的備機。
通信線路風險應對方案:
目前新舊機房間采用的是兩家不同運營商裸光纖進行鏈路聚合,在搬遷前須進行一次互備測試:在新舊機房核心交換機之間長ping,確保斷開一家運營商光纖,另一家運營商光纖仍能保證新舊機房之間的正常通信。為避免搬遷過程中因跨運營商平臺出現2層網絡問題(如Mac地址學習不到,到網關不通等),服務器搬遷時采用逐個業務網段整體遷移模式,逐個網段進行遷移,使各業務系統服務器與網關保持在同一機房內。
為避免在搬遷當晚因專線鏈路傳輸問題進而影響搬遷進展,搬遷前將逐條對各專線點對點測試,發現有延遲的、抖動及時通知運營商傳輸解決,規避此類問題的發生。對于本次搬遷涉及的重要線路,在新機房采用新增專線方式,避免在搬遷當日線路移址的風險。
搬遷前對新機房信息點進行一次全面測試,發現有信息點不通,延時大、丟包等問題須提前予以解決。
根據日常維護的經驗,我們對單點故障的設備,做了有針對性的備品備件準備(附表:)。比如最可能發生故障的硬盤和電源,我們的備件會覆蓋到每一臺有單節點故障的設備,根據不同的需要備不同數量的硬盤,電源及內存等等。故障發生時,盡快利用備品備件修復故障。
設備搬遷前,搬遷派出資深的硬件工程師,對PC服務器和存儲做健康檢查,對搬遷前發現的故障點,及時通知維保商做硬件維修,確認無誤后在下架搬遷。
對網絡設備和存儲的配置,做到全面的配置備份。
對核心業務系統,除了配置整機,還會針對特殊環境搭建對應的生產備用環境,以便能在短時間內恢復生產。
搬遷日,涉及到重要系統的,除了協調技術支持資源外,還需由搬家派出資深的硬件工程師、系統工程師、存儲工程師及數據庫工程師,現場進行保障。通過硬件和人員保障,最快速的解決問題。除搬家外,與其它維保廠商以及原廠(參4.3.11、4.3.12 廠商支持準備)提前溝通,隨時做好業務支持。
對于部分單節點無數據冗余的業務系統,光從硬件上無法完全滿足系統安全的需求,經綜合比較,我們將該部分系統采用虛擬化備份的方式(將物理機系統,通過當今流行的VMware Converter 備份軟件,在線將系統轉換到虛擬機,數據將集中存放于存儲)。生成的虛擬機和真實的物理系統無大的差別,隨時可頂替故障的物理機。
同時,我們會配置一臺大容量NAS存儲,配合虛擬機數據的存放的需求。
虛擬化備份的系統包括:
為了避免設備在物理搬遷工程中出現的損壞或丟失,搬遷要提前落實為物理搬遷購買保險。
由于搬遷項目實施周期長,有可能在搬遷過程中,人力資源發生困難,不能同時調試、搬遷預計的設備和系統。
l 搬遷過程牽涉人員眾多,指揮協調難度大。需建立指揮溝通協調機制,確保搬遷過程中相關人員之間及時聯絡、匯報;配備足夠的通訊工具等。
l 在同城局域網穩定可靠的前提下,可以調整進度安排,將每個階段,分成更小的批次,減少每個階段搬遷的系統數量,保證重點系統的搬運。
l 搬遷前安排重要人員充分休息,并考慮重要人員的備份安排。
l 禁止具體實施人員(含搬遷搬遷人員、支持人員)在實施當日(實施前、后