在不確定性中尋找確定性。
01抵抗不確定性的“免疫力”
這次疫情“黑天鵝”,讓許多企業(yè)用戶開始意識到,系統(tǒng)的數(shù)字化能力是抵御包括疫情在內(nèi)的諸多不確定性風(fēng)險以及未來就緒的最佳途徑。
通過將數(shù)字化轉(zhuǎn)化為生產(chǎn)方式,無縫融入商業(yè)模式和全場景體驗,構(gòu)建線上線下的一體化鏈條,讓企業(yè)真正獲得抵抗不確定性的“免疫力”;而這樣的前提在于:
第一,在如此快速變化的時代,業(yè)務(wù)和需求都在快速迭代,用戶的應(yīng)用也正在更多的向云原生和微服務(wù)架構(gòu)轉(zhuǎn)型,這要求基礎(chǔ)設(shè)施能夠快速部署以及靈活可擴(kuò)展;
第二,當(dāng)下的經(jīng)濟(jì)環(huán)境,需要在技術(shù)先進(jìn)性和經(jīng)濟(jì)合理性中找到平衡支點;
第三,如果說企業(yè)的“免疫力”來自于系統(tǒng)的數(shù)字化能力打造,那么穩(wěn)定、持續(xù)的數(shù)字化能力輸出大概率來自于系統(tǒng)的健壯性。核心的數(shù)據(jù)基礎(chǔ)設(shè)施如果同樣擁有了“免疫力”,無疑能夠更好的抵御各種故障對系統(tǒng)的沖擊,保證上層業(yè)務(wù)的正常運(yùn)行。
02XSKY SDS V4.2正式發(fā)布
日前,為了幫助企業(yè)用戶更好的應(yīng)對當(dāng)下不確定性的大環(huán)境,增強(qiáng)抵抗各種不確定性的“免疫力”,XSKY正式迭代發(fā)布了V4.2版本,帶來了一系列新功能以及增強(qiáng)的特性,讓SDS更加可靠,易用和可運(yùn)維。
本次版本中,帶來了數(shù)據(jù)校驗增強(qiáng),硬盤亞健康處理,網(wǎng)絡(luò)亞健康處理,閑時自動重平衡四大重磅功能,從數(shù)據(jù)端到端安全、硬件組件的亞健康管理和容量管理三大領(lǐng)域進(jìn)行“免疫力”提升,同時還帶來了場景化進(jìn)一步增強(qiáng)等九項新增與優(yōu)化功能;并全新發(fā)布XSKY S3 Console對象接口產(chǎn)品,幫助客戶進(jìn)一步降低使用對象產(chǎn)品的門檻。
基于上述發(fā)布,客戶在一系列業(yè)務(wù)場景中實現(xiàn)了性能倍增,以及面對多樣化的工作負(fù)載,進(jìn)一步簡化運(yùn)維,增強(qiáng)抵御系統(tǒng)故障的能力:
1、VMware場景,vSphere中vMotion、克隆操作的復(fù)制性能提升了1.5倍;
2、容器場景,Pod創(chuàng)建速度更快,以100個Pod創(chuàng)建速度為例,從30+分鐘優(yōu)化到4分鐘,效能提升7.5倍;
3、相同硬件配置情況下,整個系統(tǒng)支持對象數(shù)比上一個版本提升了1倍。
以上是場景中顯著提升的部分,同時還有整體系統(tǒng)性能穩(wěn)定性的提升。
03可靠性增強(qiáng)
1、高強(qiáng)度實時數(shù)據(jù)校驗
數(shù)據(jù)靜默錯誤是現(xiàn)代存儲系統(tǒng)最難處理的故障之一?,F(xiàn)在機(jī)房周邊環(huán)境復(fù)雜,特別是SSD的大量使用,使得外部的強(qiáng)干擾導(dǎo)致本來輸入的0/1的高低電平發(fā)生改變而發(fā)生靜默錯誤的幾率越來越大。
XSKY過去版本在多副本(EC)數(shù)據(jù)保護(hù)已經(jīng)積累了大量的數(shù)據(jù)安全性保證措施,同時支持定期后臺數(shù)據(jù)掃描來檢查不一致。
在V4.2版本中,我們又增加了一個強(qiáng)有力的數(shù)據(jù)保護(hù)措施,通過在IO路徑加入了實時數(shù)據(jù)校驗機(jī)制來確保數(shù)據(jù)讀寫的即時安全。該措施使得在寫IO的時候,底層存儲引擎會計算寫入數(shù)據(jù)的CRC值并記錄到對應(yīng)數(shù)據(jù)的元數(shù)據(jù)中;
讀IO的時候,會讀出數(shù)據(jù),同時計算CRC值然后與元數(shù)據(jù)中記錄的CRC比對,如果不一致,告警,使用其他副本數(shù)據(jù)來恢復(fù),恢復(fù)后同步會打印告警消息。
實時IO流程的數(shù)據(jù)校驗使得分布式系統(tǒng)整體容錯性大大增強(qiáng),同時解決了數(shù)據(jù)一致性的即時性問題,避免任何情況下應(yīng)用從存儲系統(tǒng)中讀取可能的不一致數(shù)據(jù)。
實時數(shù)據(jù)校驗可以按照卷的粒度開啟或者關(guān)閉,內(nèi)部實驗室性能綜合測試評估對系統(tǒng)的性能峰值影響少于10%。建議關(guān)鍵業(yè)務(wù)開啟實時數(shù)據(jù)校驗功能,避免靜默錯誤的發(fā)生。
2、硬盤亞健康檢測
硬盤亞健康引起的系統(tǒng)性能抖動是分布式存儲極難處理的現(xiàn)象之一,自動檢測集群中的慢盤和壞盤,告警并自動隔離,是存儲系統(tǒng)在健壯性上的必要支撐。
在新版本中,XSKY進(jìn)一步完善了檢測方法和處理機(jī)制。壞盤判斷相對簡單,會通過檢測SCSI/NVME的IO指令錯誤碼, 以及相關(guān)設(shè)備的介質(zhì)事件發(fā)生(如拔盤)等進(jìn)行壞盤決策。
而判斷慢盤是最需要經(jīng)驗的。XSKY根據(jù)現(xiàn)網(wǎng)大量的已部署集群的工程經(jīng)驗,將算法應(yīng)用到所有的存儲介質(zhì)守護(hù)進(jìn)程(OSD)中進(jìn)行實時分析,其采用三個維度來判斷慢盤:
? 縱向時延比較:本OSD的性能延遲超過閾值的次數(shù);
? 橫向時延比較:與存儲池內(nèi)其他OSD平均延遲進(jìn)行比較,通過標(biāo)準(zhǔn)差計算相應(yīng)偏離;
? IO粒度:當(dāng)一個IO在本OSD對應(yīng)介質(zhì)中處理超過一定時間的 。
這種立體的判斷方法,使得系統(tǒng)識別慢盤的準(zhǔn)確度和速度都大幅提高。
新版本也進(jìn)一步完善了慢盤的處理流程,采用告警-隔離-重試,逐步遞進(jìn):
? 告警:上述檢測機(jī)制發(fā)現(xiàn)的所有磁盤亞健康情況都會發(fā)送對應(yīng)告警到界面,提示用戶檢查;
? 隔離:當(dāng)且僅當(dāng)出現(xiàn)IO粒度慢盤和壞盤時,系統(tǒng)會指定守護(hù)進(jìn)程(OSD)自動退出;
? 重試:當(dāng)且僅當(dāng)出現(xiàn)IO粒度慢盤和壞盤情況OSD主動退出時,系統(tǒng)會根據(jù)對應(yīng)的錯誤情況來連續(xù)嘗試?yán)鹨欢ù螖?shù)來,如繼續(xù)異常則不再拉起該OSD。重試過程中由于OSD已經(jīng)隔離退出,因此不會影響在線IO。
3、網(wǎng)絡(luò)亞健康檢測
分布式系統(tǒng),網(wǎng)絡(luò)的穩(wěn)定性對系統(tǒng)的性能影響非常大。XSKY SDS新版本可以自動識別集群網(wǎng)絡(luò)故障,發(fā)送告警信息,協(xié)助管理員快速排查網(wǎng)絡(luò)問題。
實現(xiàn)原理如下:
? 系統(tǒng)所有守護(hù)進(jìn)程通過分布式網(wǎng)絡(luò)延遲檢測算法,實時判斷不同節(jié)點的網(wǎng)絡(luò)延遲和副本之間數(shù)據(jù)復(fù)制的網(wǎng)絡(luò)延遲來獲得當(dāng)前系統(tǒng)內(nèi)所有節(jié)點的實時網(wǎng)絡(luò)情況;
? 計算出系統(tǒng)所有節(jié)點中1min, 5min, 15min內(nèi)的網(wǎng)絡(luò)延遲的平均值作為評判基線;
? 遍歷系統(tǒng)所有節(jié)點的1min,5min,15min的網(wǎng)絡(luò)延遲數(shù)據(jù),通過標(biāo)準(zhǔn)差計算分析偏離指數(shù),當(dāng)指數(shù)超過閾值時則認(rèn)為網(wǎng)絡(luò)有問題。
4、存儲池容量分布閑時自動重平衡
分布式存儲,在進(jìn)行擴(kuò)容或者縮容的時候,會觸發(fā)存儲池進(jìn)行重平衡。由于算法的拓?fù)溥m應(yīng)性或者人為干預(yù),也有小概率情況下出現(xiàn)算法自動計算的存儲池容量不平衡的情況出現(xiàn)。
以前出現(xiàn)這種情況,需要運(yùn)維人員進(jìn)行手動的容量再平衡。在新版本中,加入了智能檢測這種情況并且智能啟動重平衡的全自動化處理流程,避免極端情況下由于某個OSD寫滿(超過閾值)而引起業(yè)務(wù)不能寫入的現(xiàn)象。
分布式存儲系統(tǒng)利用閑時(晚上12點-2點,可配置),對于容量不均衡的存儲池(容量差異大于1%)進(jìn)行重平衡。自動重平衡會以最低恢復(fù)帶寬進(jìn)行,也可以關(guān)閉,避免對峰值業(yè)務(wù)造成影響。
04場景化增強(qiáng)
1、OpenStack場景優(yōu)化
很多用戶選擇XSKY SDS代替OpenStack自帶的開源軟件定義存儲。為了解決資源消耗問題,XSKY自研了具有專利技術(shù)的 XDC模塊,提供LibRBD proxy代理,通過代理劫持客戶端訪問RBD的命令,將無序的訪問命令統(tǒng)一管理起來,根據(jù)系統(tǒng)資源使用情況按需打開RBD通道,從而達(dá)到資源的有效管理。
在快照選擇上,XSKY提供ROW(Redirect on Write)技術(shù)。傳統(tǒng)存儲COW快照后在寫性能方面的效率要比ROW低很多,但是在讀性能ROW的效率要低于COW快照。而軟件定義存儲的整體性能可由多節(jié)點負(fù)擔(dān),且XSKY產(chǎn)品在讀性能方面做了大量優(yōu)化,因此,在SDS產(chǎn)品中采用ROW快照,可有效規(guī)避傳統(tǒng)存儲創(chuàng)建快照后存在的性能問題。
但上述改動使得OpenStack支持多套存儲和跨池克隆等場景處理起來比較復(fù)雜。在新版本里,XSKY通過對納管開源Ceph,在線數(shù)據(jù)遷移和跨池克隆等功能模塊持續(xù)進(jìn)行優(yōu)化,性能和穩(wěn)定性都得到較大的提升。
2、VMware場景優(yōu)化
XSKY內(nèi)部統(tǒng)計,大約有1/3的存儲應(yīng)用場景都是VMware場景。在新版本中,XSKY持續(xù)對VAAI接口進(jìn)行優(yōu)化。本版本的優(yōu)化主要有兩點:
? UNMAP的支持粒度從4M改為1M。因為ESXi應(yīng)用大部分都是1M粒度,所以對于ESXi的UNMAP操作可以顯著增加容量釋放空間;
? XCOPY直接從最底層OSD到OSD進(jìn)行數(shù)據(jù)復(fù)制,性能提升1.5倍。對于虛機(jī)克隆和遷移操作顯著減少了時間。?
3、容器場景優(yōu)化
新版本針對CSI的API接口持續(xù)進(jìn)行優(yōu)化,提升批量創(chuàng)建Pod的速度,提升了單集群支持Pod的數(shù)量,并且把通過API創(chuàng)建的資源和通過系統(tǒng)UI創(chuàng)建的資源進(jìn)行隔離,提升了安全性。
XSKY的CSI很早就支持RAW卷、卷擴(kuò)容、快照和克隆等增值特性。這次新版本加入了對用戶名和密碼進(jìn)行加密保存的支持,并且支持容器的MPIO特性,在三層網(wǎng)絡(luò)下也可以部署延展集群,實現(xiàn)容器的同城雙活。
4、S3對象存儲策略優(yōu)化
對象存儲在企業(yè)市場使用,和公有云場景不同,需要更多的精細(xì)化管理控制。在這次發(fā)布的新版本里,IT管理員可以根據(jù)業(yè)務(wù)需要,對S3用戶通過API創(chuàng)建的存儲桶可以靈活指定存儲策略。
如上圖所示,如果管理員允許使用Location參數(shù),S3 用戶調(diào)用 S3 Put Bucket API 創(chuàng)建存儲桶時,可以使用攜帶 LocationConstraint 參數(shù)來指定要使用的存儲策略。
但是如果管理員想控制某些用戶的存儲策略,則可以通過設(shè)置禁止使用Location參數(shù),則S3用戶創(chuàng)建桶時只能選擇管理員設(shè)置好的存儲策略(可以指定某個策略,也可以使用缺省策略,甚至可以在不同策略里輪詢)。
05可運(yùn)維增強(qiáng)
1、集成巡檢工具
從V4.2版本開始,XSKY SDS管理節(jié)點內(nèi)置了巡檢工具,只需要啟動運(yùn)行,就可以自動完成巡檢并提交巡檢報告。在V4.2版本以前的集群,可以從官網(wǎng)下載最新的工具進(jìn)行集群巡檢。
獲得巡檢結(jié)果后,通過官網(wǎng)上傳巡檢結(jié)果文件,后臺XSKY售后支持系統(tǒng)會利用內(nèi)部知識庫以及智能分析系統(tǒng)來進(jìn)行故障或隱患的發(fā)現(xiàn),生成巡檢報告,并提供給用戶。
2、文件訪問日志
支持針對文件的操作,進(jìn)行日志記錄,滿足審計等客戶需求,方便操作追溯。
3、告警記錄優(yōu)化
告警記錄優(yōu)化,增加了告警自動恢復(fù)機(jī)制,錯誤碼,告警原因,詳情和處理意見,使得用戶可以自行針對處理建議進(jìn)行修復(fù),也增強(qiáng)了系統(tǒng)的透明性,使得運(yùn)維更便捷。
4、優(yōu)化歸并文件空洞掃描
可按照策略進(jìn)行空間掃描進(jìn)行二次歸并,及時進(jìn)行空間回收,提高對象存儲空間使用率。
5、存儲桶對象數(shù)規(guī)格提升和告警優(yōu)化
新版本對索引池的性能進(jìn)行持續(xù)優(yōu)化,相同硬件配置的情況下,整個系統(tǒng)支持對象數(shù)比上一個版本提升了1倍。并且可以在界面看到單桶已經(jīng)存儲文件數(shù)量,超出存儲文件數(shù)閾值限制寫入,保證已寫入桶數(shù)據(jù)的預(yù)期性能。
06推出全新XSKY S3 Console軟件
對象存儲通過S3 API來使用,這種方式對于很多企業(yè)用戶來說不太直觀。他們希望有一個工具,可以類似公有云一樣,實現(xiàn)文件的上傳和下載等基本的操作。
XSKY S3 Console是一款面向XSKY S3用戶的便捷管理對象存儲服務(wù)的圖形化Web應(yīng)用程序,主要提供了豐富的桶、文件夾及文件等級別的管理功能。幫助使用XSKY對象產(chǎn)品的客戶降低使用門檻。
本次新版本中,XSKY的對象存儲內(nèi)置了S3 Console功能。用戶只需要安裝好對象存儲,打開瀏覽器就可以直接基于S3 Console來使用對象存儲。
通過XSKY S3 Console,對象存儲就不僅僅只適合開發(fā)人員使用,普通用戶也可以很方便的使用對象存儲。
07小結(jié)
XSKY SDS V4.2的發(fā)布,使得XSKY SDS的健壯性、性能、易用性和可運(yùn)維能力都有了大幅的提升,保證上層業(yè)務(wù)穩(wěn)定運(yùn)行,助力客戶利用SDS的優(yōu)勢更加敏捷應(yīng)對疫情帶來的影響。XSKY S3 Console,則拉近了對象存儲和用戶的距離,可以加快對象存儲在企業(yè)中的普及。