西安每一天便利超市連鎖有限公司(簡(jiǎn)稱“每一天便利超市”)是西安知名的綜合性零售型企業(yè),成立于2010年,現(xiàn)擁有超2000家門(mén)店。在發(fā)展過(guò)程中,公司積極推動(dòng)信息化與數(shù)字化建設(shè),涵蓋移動(dòng)支付、電子會(huì)員卡、在線購(gòu)物及送貨服務(wù)等,致力于成為持續(xù)創(chuàng)新的數(shù)字化企業(yè)。
每一天便利超市正加速其數(shù)字化轉(zhuǎn)型步伐,運(yùn)用BI系統(tǒng)(商業(yè)智能BI分析系統(tǒng))全方位構(gòu)建精細(xì)化運(yùn)營(yíng)、數(shù)字化營(yíng)銷(xiāo)、數(shù)字化服務(wù)等數(shù)字化經(jīng)營(yíng)能力。但面臨原有BI分析系統(tǒng)性能瓶頸、系統(tǒng)過(guò)保且缺乏專(zhuān)業(yè)支持、日常報(bào)表處理效率低下、難以滿足業(yè)務(wù)時(shí)效要求等問(wèn)題,為進(jìn)一步優(yōu)化企業(yè)信息流通,提升生產(chǎn)效率與決策效率,并有效控制成本與風(fēng)險(xiǎn),公司決定使用深信服托管云替換現(xiàn)有IT基礎(chǔ)設(shè)施,承載核心BI分析系統(tǒng)。
一、每一天便利超市BI建設(shè)現(xiàn)狀及IT困境
(一)BI當(dāng)前架構(gòu)
每一天便利超市全面推進(jìn)企業(yè)數(shù)字化轉(zhuǎn)型變革,運(yùn)用數(shù)字化技術(shù),全方位構(gòu)建精細(xì)化運(yùn)營(yíng)、數(shù)字化營(yíng)銷(xiāo)、數(shù)字化服務(wù)等數(shù)字化經(jīng)營(yíng)能力,建立具有持續(xù)創(chuàng)新能力的自進(jìn)化型的數(shù)字化企業(yè),為顧客持續(xù)創(chuàng)造價(jià)值,優(yōu)化顧客體驗(yàn)。公司當(dāng)前企業(yè)信息化系統(tǒng)已建立完善包含ERP、OA、財(cái)務(wù)等,各業(yè)務(wù)系統(tǒng)數(shù)據(jù)較為分散,為提高便利店的營(yíng)收和降低企業(yè)生產(chǎn)成本,公司于18年引入BI系統(tǒng),以優(yōu)化數(shù)據(jù)集成與分析能力,提升生產(chǎn)效率與管理水平。通過(guò)BI系統(tǒng)的部署,集團(tuán)期望能夠?qū)崿F(xiàn)數(shù)據(jù)的集中管理和分析,增強(qiáng)決策支持,進(jìn)一步推進(jìn)整體數(shù)字化轉(zhuǎn)型進(jìn)程。
如圖所示,該架構(gòu)為每一天便利超市初始建設(shè)的BI系統(tǒng),IT基礎(chǔ)資源采用IDC托管服務(wù)器和某國(guó)外品牌超融合形式承載。
(二)BI當(dāng)前IT資源
如圖所示,用戶原先采用的國(guó)外品牌超融合承載,單臺(tái)虛擬機(jī)配置為78核CPU,145GB內(nèi)存,總磁盤(pán)存儲(chǔ)空間為1700GB。
(三)現(xiàn)有IT架構(gòu)面臨的挑戰(zhàn)
1.門(mén)店數(shù)量持續(xù)增加,現(xiàn)有BI承載方案面臨挑戰(zhàn),BI系統(tǒng)已過(guò)保,缺乏專(zhuān)業(yè)的運(yùn)維人員
公司門(mén)店數(shù)量超2000家,采供銷(xiāo)經(jīng)營(yíng)等需要分析的數(shù)據(jù)有1.1TB,隨著業(yè)務(wù)后續(xù)發(fā)展,迫切需要一套能夠根據(jù)實(shí)時(shí)需求動(dòng)態(tài)調(diào)整資源分配的解決方案,以保障數(shù)據(jù)處理的高效性和準(zhǔn)確性。
2.BI本地超融合承載服務(wù)器磁盤(pán)采用SATA盤(pán),性能不足,出報(bào)表時(shí)間較長(zhǎng),嚴(yán)重影響營(yíng)銷(xiāo)決策工作
日增數(shù)據(jù)10GB,原有BI系統(tǒng)性能不足,每日?qǐng)?bào)表任務(wù)執(zhí)行時(shí)間過(guò)長(zhǎng),無(wú)法滿足業(yè)務(wù)分析的時(shí)效性要求。
3.資源擴(kuò)展有限,業(yè)務(wù)上線慢
本地機(jī)房托管導(dǎo)致資源靈活擴(kuò)展性不高,沒(méi)有購(gòu)買(mǎi)多余機(jī)柜空間,業(yè)務(wù)擴(kuò)展從采購(gòu)服務(wù)器、租賃機(jī)柜空間到上線交付周期長(zhǎng),無(wú)法滿足BI業(yè)務(wù)快速擴(kuò)容需求。
4.原先國(guó)外品牌超融合面臨續(xù)費(fèi)價(jià)格昂貴,需要更加經(jīng)濟(jì)的IT承載方案
二、托管云解決方案
1.網(wǎng)絡(luò)方案
遠(yuǎn)程運(yùn)維:本地運(yùn)維人員與托管云機(jī)房采用IPSec VPN加密互聯(lián),保障運(yùn)維安全。
帶寬:采用云上200M帶寬,可根據(jù)業(yè)務(wù)所需流量值彈性擴(kuò)容。
2.云資源選型
專(zhuān)屬服務(wù)器:CPU:Intel 6342 @ 2.80GHz 24核*2路,內(nèi)存:256.00 GB,磁盤(pán):3.2TB NVMe SSD硬盤(pán);高性能服務(wù)器配置滿足用戶對(duì)磁盤(pán)IO和計(jì)算資源的需求。
彈性基礎(chǔ)設(shè)施資源:托管云提供A/T3+級(jí)機(jī)房,用戶無(wú)需購(gòu)買(mǎi)機(jī)柜空間,僅購(gòu)買(mǎi)專(zhuān)屬服務(wù)器、帶寬等云服務(wù)即可;基礎(chǔ)資源由托管云管家運(yùn)維并交付上線,用戶只負(fù)責(zé)應(yīng)用部署上線,滿足用戶快速擴(kuò)容和業(yè)務(wù)上線需求。
3.服務(wù)方案
提供貼心服務(wù)。托管云配備專(zhuān)屬管家、專(zhuān)屬群、專(zhuān)屬項(xiàng)目經(jīng)理,減輕用戶運(yùn)維壓力,用戶可以更好地聚焦業(yè)務(wù)應(yīng)用開(kāi)發(fā)與創(chuàng)新。
三、托管云測(cè)試記錄
(一)標(biāo)準(zhǔn)配置測(cè)試結(jié)論
首先根據(jù)現(xiàn)有BI服務(wù)器配置(現(xiàn)有BI系統(tǒng)虛擬機(jī)配置為78核145GB,使用某國(guó)外品牌超融合承載),使用與之配置相似的標(biāo)準(zhǔn)托管云服務(wù)器進(jìn)行測(cè)試,獲取系統(tǒng)基線性能需求和特征,測(cè)試內(nèi)容如下:
1.測(cè)試服務(wù)器配置:CPU:Intel 622R @ 2.90GHz 16核,磁盤(pán)混閃:SATA盤(pán)
2.測(cè)試場(chǎng)景:根據(jù)出報(bào)表的數(shù)據(jù)類(lèi)型進(jìn)行并發(fā)計(jì)算任務(wù)測(cè)試
測(cè)試時(shí)間:計(jì)算每個(gè)數(shù)據(jù)類(lèi)型產(chǎn)出報(bào)表時(shí)長(zhǎng)
測(cè)試結(jié)果:根據(jù)每次測(cè)試的計(jì)算任務(wù)總用時(shí),得出平均計(jì)算任務(wù)跑完用時(shí)790分鐘左右說(shuō)明磁盤(pán)性能有瓶頸導(dǎo)致查詢數(shù)據(jù)較慢,計(jì)算過(guò)程CPU iowait:35%左右。
3.測(cè)試場(chǎng)景:根據(jù)并發(fā)用戶數(shù)測(cè)試CPU資源瓶頸
測(cè)試并發(fā)用戶數(shù):7
測(cè)試結(jié)果:并發(fā)用戶為7,同時(shí)打開(kāi)報(bào)表,用戶反饋打開(kāi)報(bào)表緩慢,各資源負(fù)載如下圖CPU各核心負(fù)載偏高,磁盤(pán)、內(nèi)存、網(wǎng)絡(luò)均正常,說(shuō)明計(jì)算資源沒(méi)有得到充分利用或計(jì)算CPU核數(shù)不足。
根據(jù)用戶提出的性能不足以及測(cè)試結(jié)果,得出影響BI系統(tǒng)的三個(gè)核心指標(biāo)如下:
多核CPU高主頻:BI系統(tǒng)通常需要多核CPU以支持并行處理任務(wù),例如數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)、實(shí)時(shí)查詢處理以及復(fù)雜的分析算法。高主頻:更高的CPU主頻意味著更快的單線程性能,這對(duì)于執(zhí)行密集型的分析任務(wù)比較重要。
高性能存儲(chǔ):為了加速數(shù)據(jù)訪問(wèn)及分析速度,通常會(huì)采用固態(tài)硬盤(pán)(SSD)而非傳統(tǒng)機(jī)械硬盤(pán)(HDD),尤其是在需要頻繁讀寫(xiě)操作的情況下。
大內(nèi)存需求:BI系統(tǒng)在運(yùn)行時(shí)需要加載大量數(shù)據(jù)到內(nèi)存中進(jìn)行處理,因此對(duì)內(nèi)存的要求較高。足夠的內(nèi)存可以減少數(shù)據(jù)加載的時(shí)間,提高系統(tǒng)的響應(yīng)速度和數(shù)據(jù)處理能力。
基于測(cè)試結(jié)果進(jìn)行云上資源選型和架構(gòu)設(shè)計(jì)如下:
(二)托管云架構(gòu)設(shè)計(jì)、選型、調(diào)優(yōu)
1.云架構(gòu)設(shè)計(jì)
根據(jù)前期測(cè)試結(jié)果及總結(jié)結(jié)論,在規(guī)劃新的云上承載平臺(tái)時(shí),考慮到BI系統(tǒng)的性能需要提升,以及資源獨(dú)享和安全性等因素,因此在托管云平臺(tái)上云服務(wù)器采用一臺(tái)專(zhuān)屬計(jì)算服務(wù)器承載BI,兩臺(tái)托管私有云承載其他業(yè)務(wù)系統(tǒng)。考慮到BI需要高主頻CPU、高IO存儲(chǔ)性能,因此采用硬件環(huán)境:CPU:Intel 6342 @ 2.80GHz 24核*2路,內(nèi)存:256.00 GB,磁盤(pán):3.2TB NVMe SSD硬盤(pán),機(jī)房選擇就近機(jī)房接入,具體如下:
(1)選擇在陜西深信服托管云T3+機(jī)房,建設(shè)3節(jié)點(diǎn)專(zhuān)屬私有云。其中BI系統(tǒng)獨(dú)占1節(jié)點(diǎn)計(jì)算資源,使用NVMe全閃卷。
(2)通過(guò)IPSec VPN與本地網(wǎng)絡(luò)環(huán)境組網(wǎng)打通,實(shí)現(xiàn)托管云與本地進(jìn)行安全可靠的內(nèi)網(wǎng)訪問(wèn)。
(3)網(wǎng)絡(luò)采用多運(yùn)營(yíng)商網(wǎng)絡(luò),解決跨網(wǎng)訪問(wèn)延遲問(wèn)題。
2.云資源選型列表
3.BI系統(tǒng)運(yùn)行過(guò)程調(diào)優(yōu)
BI數(shù)據(jù)庫(kù)運(yùn)行時(shí)出現(xiàn)BI系統(tǒng)連接數(shù)據(jù)庫(kù)報(bào)錯(cuò),從下圖可以看出數(shù)據(jù)庫(kù)初始化連接數(shù)為空。
BI數(shù)據(jù)庫(kù)參數(shù)調(diào)優(yōu)
參數(shù)調(diào)優(yōu)前:
因數(shù)據(jù)庫(kù)參數(shù)問(wèn)題,導(dǎo)致部分?jǐn)?shù)據(jù)運(yùn)行不起來(lái),從而使承載BI服務(wù)器的硬件資源利用率較低:
參數(shù)調(diào)優(yōu)后如下:
調(diào)優(yōu)參數(shù)說(shuō)明
(1)初始化連接數(shù):數(shù)據(jù)庫(kù)系統(tǒng)在啟動(dòng)時(shí)預(yù)先建立的一定數(shù)量的連接。
調(diào)參目的:應(yīng)對(duì)數(shù)據(jù)庫(kù)連接失敗,快速響應(yīng)用戶請(qǐng)求。
當(dāng)BI程序首次嘗試連接到數(shù)據(jù)庫(kù)時(shí),如果沒(méi)有初始化連接,需要?jiǎng)?chuàng)建新的連接,這個(gè)過(guò)程可能會(huì)耗費(fèi)一定的時(shí)間甚至連接失敗。而有了初始化連接數(shù),應(yīng)用程序可以立即獲取到可用的連接,從而快速響應(yīng)業(yè)務(wù)請(qǐng)求,減少用戶等待時(shí)間。
(2)最小空閑連接數(shù):指在數(shù)據(jù)庫(kù)連接池中始終保持的最小數(shù)量的空閑連接
調(diào)參目的:在數(shù)據(jù)庫(kù)正常連接的基礎(chǔ)上,應(yīng)對(duì)突發(fā)的用戶流量。
最小空閑連接數(shù)可以為數(shù)據(jù)庫(kù)系統(tǒng)提供一定的緩沖,以應(yīng)對(duì)突發(fā)的流量高峰。當(dāng)大量的用戶同時(shí)訪問(wèn)系統(tǒng)時(shí),數(shù)據(jù)庫(kù)需要處理更多的連接請(qǐng)求。如果沒(méi)有足夠的空閑連接,可能會(huì)導(dǎo)致連接排隊(duì)等待,甚至出現(xiàn)連接超時(shí)的情況。
(3)歸還連接前檢查:在BI程序使用完數(shù)據(jù)庫(kù)連接后,將連接歸還給連接池之前進(jìn)行檢查。
調(diào)參目的:減少BI程序在下次與數(shù)據(jù)庫(kù)交互時(shí)使用數(shù)據(jù)庫(kù)連接時(shí)減少出現(xiàn)錯(cuò)誤的可能性。
歸還連接前檢查目的是確認(rèn)連接的狀態(tài)是否正常,是否仍然能夠有效地與數(shù)據(jù)庫(kù)進(jìn)行交互。如果連接在使用過(guò)程中出現(xiàn)了問(wèn)題,如網(wǎng)絡(luò)中斷、數(shù)據(jù)庫(kù)服務(wù)器故障等,那么這個(gè)連接可能就無(wú)法再次被安全地使用。通過(guò)檢查,可以避免將無(wú)效連接放回連接池。
實(shí)際調(diào)整如下:
數(shù)據(jù)庫(kù)參數(shù)調(diào)優(yōu)后:
用戶反饋整體數(shù)據(jù)庫(kù)連接及響應(yīng)時(shí)間有改善,計(jì)算資源利用率顯著提升。
4.確定選型及BI數(shù)據(jù)庫(kù)參數(shù)調(diào)優(yōu)之后運(yùn)行記錄
根據(jù)托管云選型之后的資源測(cè)試以及參數(shù)調(diào)優(yōu)之后得出結(jié)論:
磁盤(pán)配置:NVMe SSD磁盤(pán);
CPU:Intel 6342 @ 2.80GHz 24核 * 2路;
數(shù)據(jù)計(jì)算任務(wù)場(chǎng)景:使用高性能磁盤(pán)(NVMe SSD)效率提升效果明顯,較大幅度提升系統(tǒng)IO上限,縮短計(jì)算任務(wù)時(shí)長(zhǎng),由原來(lái)790分鐘計(jì)算縮短至390分鐘左右,綜合縮短50%左右;
用戶并發(fā)訪問(wèn)場(chǎng)景,由于進(jìn)程并發(fā)度較高,且主要消耗多核CPU資源??偹懔?主頻*核數(shù))提升,多核使并發(fā)效率大幅度提升,CPU iowait:2%以內(nèi),綜合降低33%左右。
本次運(yùn)行測(cè)試之后,出報(bào)表時(shí)間整體符合預(yù)期,用戶直接將此運(yùn)行環(huán)境轉(zhuǎn)為正式運(yùn)行環(huán)境
5.BI系統(tǒng)上線后業(yè)務(wù)運(yùn)行情況
實(shí)際運(yùn)行效果如下圖:
磁盤(pán)IO最高速率在1.71GB/s左右。
BI系統(tǒng)穩(wěn)定運(yùn)行過(guò)程CPU平均負(fù)載56.94%,內(nèi)存平均負(fù)載63.88%。
四、用戶價(jià)值
1.高性能IaaS資源:滿足每一天便利超市對(duì)BI系統(tǒng)高性能需求,報(bào)表處理時(shí)間提高50%,通過(guò)低時(shí)延、高性能確保數(shù)據(jù)處理和分析的連續(xù)性與效率,支撐公司商業(yè)決策的精準(zhǔn)性和快速響應(yīng)市場(chǎng)變化的能力。
2.專(zhuān)屬物理資源:提供獨(dú)立的物理資源,構(gòu)建安全、高性能專(zhuān)屬云。同時(shí),提供彈性云資源服務(wù),彈性擴(kuò)展帶寬、云存儲(chǔ)等資源。
3.業(yè)務(wù)上云架構(gòu)優(yōu)化服務(wù):在BI業(yè)務(wù)遷移至云環(huán)境后,為了確保數(shù)據(jù)庫(kù)性能達(dá)到最優(yōu)狀態(tài),托管云管家對(duì)數(shù)據(jù)庫(kù)參數(shù)進(jìn)行細(xì)致的調(diào)整。如調(diào)整數(shù)據(jù)庫(kù)初始化連接數(shù),連接池檢查等以確保數(shù)據(jù)庫(kù)初次連接正常以及頻繁訪問(wèn)的數(shù)據(jù)能快速被讀取,提升BI業(yè)務(wù)上云后的整體性能、穩(wěn)定性和響應(yīng)速度,為業(yè)務(wù)的高效運(yùn)行提供有力保障。
4.業(yè)務(wù)快速上線:由原來(lái)線下采購(gòu)物理服務(wù)器或超融合一體機(jī)且需要租賃IDC機(jī)柜位置,整體上線周期幾周甚至數(shù)月。而今,借助托管云服務(wù),業(yè)務(wù)可在短短幾天內(nèi)迅速上線運(yùn)行。
5.貼心服務(wù):深信服管家主動(dòng)式的服務(wù),配備專(zhuān)屬服務(wù)經(jīng)理和快速響應(yīng)機(jī)制,為用戶提供高效的支持。
6.降低成本:制定詳細(xì)遷移計(jì)劃,提供免費(fèi)上云、遷移服務(wù),消除用戶對(duì)遷移過(guò)程中可能產(chǎn)生的額外成本的擔(dān)憂,保障了業(yè)務(wù)的自由轉(zhuǎn)移。