隨著企業(yè)業(yè)務(wù)的迅猛擴展,對計算、存儲及網(wǎng)絡(luò)資源的需求呈現(xiàn)出爆炸式增長。然而,原有的VMware虛擬化平臺在處理高并發(fā)業(yè)務(wù)時逐漸顯得力不從心,不僅限制了業(yè)務(wù)的靈活性和擴展性,還可能導致性能瓶頸,進而影響用戶體驗和業(yè)務(wù)效率。面對這一挑戰(zhàn),企業(yè)決定啟動一項重大的技術(shù)升級項目。
該項目旨在通過引入深信服超融合基礎(chǔ)設(shè)施,全面替換現(xiàn)有的VMware平臺。深信服超融合將構(gòu)建兩個資源池——普通混閃存儲和高性能混閃存儲,同時與現(xiàn)有的DELL FC外置存儲空間實現(xiàn)對接,形成一個集多種存儲于一體的融合資源池。這一轉(zhuǎn)變不僅標志著企業(yè)從傳統(tǒng)單一虛擬化向私有云資源池架構(gòu)的跨越,更優(yōu)化了業(yè)務(wù)信息系統(tǒng)架構(gòu),使其能夠更好地適應(yīng)企業(yè)業(yè)務(wù)的動態(tài)變化和持續(xù)增長。
在硬件配置上,原VMware平臺擁有20臺服務(wù)器,每臺配備44核CPU和768G內(nèi)存,外加約100T的Dell FC存儲。而新的深信服超融合方案則顯著提升了配置水平,擁有77臺服務(wù)器,每臺配備32核CPU和768G內(nèi)存,同時配置了1.2P的普通混閃集群(緩存比為10%)、600T的高性能混閃集群(緩存比為24%)以及600T的全閃集群。多個集群的設(shè)立旨在滿足不同業(yè)務(wù)系統(tǒng)的需求。
在業(yè)務(wù)系統(tǒng)遷移策略上,企業(yè)采取了針對性的遷移方案,以確保關(guān)鍵業(yè)務(wù)系統(tǒng)的連續(xù)性和穩(wěn)定性。SRM、CRM、EKP和PCB_MES等關(guān)鍵業(yè)務(wù)系統(tǒng)經(jīng)過詳細的業(yè)務(wù)影響分析,確定了各自的RTO和RPO要求,從而制定了遷移的優(yōu)先級和資源分配。遷移工作主要在非高峰時段進行,并采用了增量遷移技術(shù),以最大限度地減少對業(yè)務(wù)的影響。
為了提升系統(tǒng)的可靠性,項目還實施了數(shù)據(jù)冗余架構(gòu),在兩個相距約五公里的數(shù)據(jù)中心之間建立了數(shù)據(jù)冗余橋梁,實現(xiàn)了雙活。同時,基于深信服超融合的無代理CDP模塊,重要業(yè)務(wù)系統(tǒng)能夠?qū)崿F(xiàn)秒級備份。1T的IO日志存放在虛擬存儲中,備份數(shù)據(jù)則存放在外置存儲EDS上,確保在突發(fā)故障發(fā)生時能夠迅速恢復數(shù)據(jù),實現(xiàn)RPO=1s。
深信服超融合基礎(chǔ)設(shè)施在軟硬件層面進行了深度優(yōu)化,能夠更有效地應(yīng)對企業(yè)業(yè)務(wù)系統(tǒng)的高并發(fā)處理需求。高性能混閃卷和全閃卷的應(yīng)用,滿足了高IO性能承載的需求。同時,通過精細化的資源整合和智能調(diào)度機制,資源利用效率得到了顯著提升,確保了業(yè)務(wù)系統(tǒng)的靈活性和高效性。
在成本效益方面,超融合資源池架構(gòu)簡化了數(shù)據(jù)中心的基礎(chǔ)設(shè)施,降低了對多種獨立硬件設(shè)備的需求。這不僅降低了硬件采購成本,還減少了因設(shè)備多樣性而產(chǎn)生的維護工作和相關(guān)費用,降低了企業(yè)的總體擁有成本(TCO),并增強了系統(tǒng)的可擴展性和靈活性。
從2023年初至2024年10月,整個遷移工程歷經(jīng)近兩年的時間。遷移過程分為前期準備、分階段遷移和重點業(yè)務(wù)遷移三個階段。在前期準備階段,深信服對業(yè)務(wù)進行了分層設(shè)計,識別出369臺業(yè)務(wù)虛機,并根據(jù)業(yè)務(wù)重要性和可中斷性進行了分類。同時,對VMware源端和深信服超融合目的端進行了詳細的風險分析,制定了科學合理的遷移方案。
在分階段遷移階段,深信服優(yōu)先將三類業(yè)務(wù)遷移至混閃集群,然后逐步將二類業(yè)務(wù)遷移至高性能混閃集群,最后在重大節(jié)假日將一類業(yè)務(wù)遷移至全閃集群。遷移過程中,深信服密切關(guān)注遷移進度和資源使用情況,通過主動服務(wù)巡檢并查看資源,確保遷移順利進行。
以PCB_MES業(yè)務(wù)系統(tǒng)為例,作為用戶的核心業(yè)務(wù)系統(tǒng),由于無法安裝SCMT的遷移代理agent,只能采用免代理方式進行遷移。遷移過程中,深信服密切關(guān)注數(shù)據(jù)的完整性和一致性,經(jīng)過約兩天的時間,完成了大部分數(shù)據(jù)的遷移。在切換過程中,遭遇了因Linux內(nèi)核版本過低而無法在工具上完成切換的問題,但深信服通過取消virtio磁盤后拉起,并進行低版本內(nèi)核的tools安裝,最終成功完成業(yè)務(wù)遷移。
在完成所有業(yè)務(wù)的遷移后,深信服對遷移后的系統(tǒng)進行了全面的驗證和優(yōu)化。功能驗證包括系統(tǒng)啟動與運行、業(yè)務(wù)應(yīng)用功能業(yè)務(wù)流程完整性和功能響應(yīng)速度等方面。數(shù)據(jù)驗證則檢查了遷移后的數(shù)據(jù)完整性和一致性,確保數(shù)據(jù)沒有丟失或損壞。
為了確保業(yè)務(wù)持續(xù)穩(wěn)定運行,深信服通過云端智能大腦等智能運維工具,結(jié)合線上線下服務(wù)協(xié)同人機共智的模式,對遷移到HCI的業(yè)務(wù)應(yīng)用實現(xiàn)了智能監(jiān)控。這構(gòu)建了一個涵蓋硬件、云平臺、云主機、數(shù)據(jù)庫、應(yīng)用等全棧的監(jiān)控體系,有效減少了生產(chǎn)中斷事件的發(fā)生次數(shù),保障了業(yè)務(wù)的連續(xù)性。
深信服還為用戶配備了專屬線上線下服務(wù)經(jīng)理,建立了線上線下協(xié)同的故障處置機制,確保7*24H及時響應(yīng)用戶問題,協(xié)同進行故障排除和恢復。這一措施能夠在事件發(fā)生前期提前發(fā)出預(yù)警,識別風險,達到提前介入處理,事先消除風險,規(guī)避事件的發(fā)生。