ITBear旗下自媒體矩陣:

打破存儲(chǔ)性能瓶頸,杉巖數(shù)據(jù)為AI提速增效

   時(shí)間:2021-11-04 16:51:28 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評(píng)論無障礙通道

當(dāng)前,隨著AI(人工智能)技術(shù)的日趨成熟和疫情的影響,整個(gè)社會(huì)加速進(jìn)入以人工智能為代表的數(shù)字化新常態(tài)。AI應(yīng)用已逐漸滲入到我們生產(chǎn)、生活的方方面面,并產(chǎn)生積極影響。比如,AI在人臉識(shí)別、機(jī)器人客服、智能質(zhì)檢、輔助醫(yī)療、自動(dòng)駕駛、風(fēng)評(píng)風(fēng)控等領(lǐng)域快速響應(yīng),提高了效率。在今年發(fā)布的國(guó)家“十四五“規(guī)劃綱要中,人工智能更是被重點(diǎn)提及,已上升為國(guó)家戰(zhàn)略高度,成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量。

面對(duì)撲面而來的AI旋風(fēng),在Gartner2020年的一份調(diào)查中,超過85%的CIO表示將在兩到三年內(nèi)為企業(yè)部署AI(人工智能)和ML(機(jī)器學(xué)習(xí))。

在人工智能發(fā)展的三個(gè)要素?cái)?shù)據(jù)、算力和算法中,數(shù)據(jù)和算力主要受限于信息基礎(chǔ)設(shè)施的建設(shè)。隨著AI/ML在各行各業(yè)中多點(diǎn)開花,數(shù)據(jù)作為關(guān)鍵生產(chǎn)要素的作用愈發(fā)突出,海量數(shù)據(jù)的采集、存儲(chǔ)、訪問和應(yīng)用讓存儲(chǔ)層挑戰(zhàn)越來越大。

AI 時(shí)代,計(jì)算之外的存儲(chǔ)架構(gòu)挑戰(zhàn)

AI 時(shí)代,算力是產(chǎn)業(yè)發(fā)展的推力,要保證 AI 應(yīng)用的持續(xù)高效運(yùn)行,承載數(shù)據(jù)的存儲(chǔ)系統(tǒng)也必須跟上時(shí)代的步伐。如何在有限資源投入下,充分發(fā)揮算法算力優(yōu)勢(shì),最大限度地推動(dòng)AI應(yīng)用落地和釋放數(shù)據(jù)價(jià)值,已經(jīng)成為信息基礎(chǔ)設(shè)施運(yùn)營(yíng)者們迫切需要解決的問題。其挑戰(zhàn)主要體現(xiàn)在以下幾個(gè)方面:

1.如何接入和保存各類來源、各種格式的數(shù)據(jù),真正做到“海納百川”?

在大量的AI場(chǎng)景之中,海量非結(jié)構(gòu)化數(shù)據(jù)(圖片、視頻、音頻、文檔等)占據(jù)主流,單個(gè)文件通常很小,一般大小僅為幾KB或幾百KB,但文件數(shù)量極大。例如在金融領(lǐng)域,金融業(yè)務(wù)不僅產(chǎn)生大量原始票據(jù)掃描件,還有電子合同、簽名數(shù)據(jù)、人臉識(shí)別數(shù)據(jù)等,數(shù)量甚至可以高達(dá)數(shù)十億級(jí)規(guī)模;在自動(dòng)駕駛領(lǐng)域,單個(gè)數(shù)據(jù)集可能就包含10萬+數(shù)量的視頻、圖片及相應(yīng)標(biāo)準(zhǔn),近年來又增加了許多雷達(dá)數(shù)據(jù),總數(shù)據(jù)量往往達(dá)到幾百TB甚至數(shù)PB,這對(duì)于存儲(chǔ)的吞吐量、延遲要求極高。

在大多數(shù)企業(yè)中,數(shù)據(jù)通常以業(yè)務(wù)線為單位組織和管理,并且多數(shù)情況下,使用的是不同的中間件技術(shù)。隨著云計(jì)算特別是容器技術(shù)的不斷發(fā)展,大量基于物理機(jī)和虛擬機(jī)等傳統(tǒng)IT架構(gòu)的應(yīng)用被遷移到云平臺(tái)上,IT架構(gòu)不斷演變。如何有效整合新型IT架構(gòu)與現(xiàn)有存儲(chǔ)設(shè)備成為難題。

2.機(jī)器學(xué)習(xí)開發(fā),如何滿足各階段對(duì)數(shù)據(jù)的存儲(chǔ)和管理要求?

如下圖所示,機(jī)器學(xué)習(xí)開發(fā)大致分為4個(gè)大的階段:數(shù)據(jù)集中與歸檔、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、推理。不同階段對(duì)底層存儲(chǔ)的要求不同。

如圖片無法顯示,請(qǐng)刷新頁面

圖1 機(jī)器學(xué)習(xí)開發(fā)的幾個(gè)關(guān)鍵階段

數(shù)據(jù)集中與歸檔階段,首先需要采集產(chǎn)品用戶環(huán)境下不同來源的數(shù)據(jù),包括外部來源的數(shù)據(jù)/數(shù)據(jù)集,并將數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)模型所需要的格式,這個(gè)階段通常具有典型I/O密集的特征,要求高帶寬和大容量。

模型訓(xùn)練階段,復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)需要利用高度并行的技術(shù)來實(shí)現(xiàn),這些模型需要大量經(jīng)過清洗和標(biāo)記的數(shù)據(jù)來訓(xùn)練,涉及到大量的隨機(jī)、小文件讀取操作,要求高帶寬和低時(shí)延。

推理階段,所部署訓(xùn)練好的模型需要準(zhǔn)實(shí)時(shí)的分析數(shù)據(jù),要求低時(shí)延和高性能。

3.如何打破存儲(chǔ)系統(tǒng)性能瓶頸,充分發(fā)揮算力?

為了加快模型訓(xùn)練速度,在機(jī)器學(xué)習(xí)開發(fā)中常常會(huì)使用一些特殊的硬件,如GPU。但是,由于存儲(chǔ)或網(wǎng)絡(luò)無法快速提供訓(xùn)練的數(shù)據(jù),不能很好的服務(wù)上層的GPU等訓(xùn)練服務(wù)器,成為系統(tǒng)I/O瓶頸,導(dǎo)致昂貴的GPU無法充分發(fā)揮其價(jià)值。

綜合來看,隨著企業(yè)AI應(yīng)用的快速發(fā)展,傳統(tǒng)存儲(chǔ)架構(gòu)成為制約瓶頸,性能、容量無法滿足需求,管理和擴(kuò)展復(fù)雜,存儲(chǔ)效率問題凸顯,很難勝任各種AI應(yīng)用場(chǎng)景的要求。

針對(duì)AI應(yīng)用,如何在數(shù)據(jù)存儲(chǔ)層面通過一套方案覆蓋AI應(yīng)用所有存儲(chǔ)工作流,并且能夠全面平衡性能、容量、擴(kuò)展性和易用性?目前,通過新型存儲(chǔ)軟件來滿足AI應(yīng)用對(duì)存儲(chǔ)的需求,成為越來越多高成長(zhǎng)性企業(yè)的選擇。

杉巖數(shù)據(jù)MOSFS,為AI應(yīng)用提速增效

MOSFS,就是一款由杉巖數(shù)據(jù)為AI應(yīng)用量身打造的智能分布式存儲(chǔ)解決方案。

如圖片無法顯示,請(qǐng)刷新頁面

圖2 MOSFS多源匯聚兼容多種存儲(chǔ)

首先,MOSFS的底座基于杉巖數(shù)據(jù)自研的海量分布式對(duì)象存儲(chǔ)(MOS),支持通過橫向擴(kuò)展硬件節(jié)點(diǎn)線性增加系統(tǒng)容量與性能,滿足EB級(jí)存儲(chǔ)規(guī)模需求。系統(tǒng)提供File Ingestor、DB Ingestor等數(shù)據(jù)匯集功能,支持各種格式、各類來源的數(shù)據(jù)。同時(shí)MOSFS還支持對(duì)現(xiàn)有NAS存儲(chǔ)、對(duì)象存儲(chǔ)和HDFS存儲(chǔ)的納管,既充分利用客戶既有投資,又滿足客戶的業(yè)務(wù)規(guī)模增長(zhǎng)需求。

其次,MOSFS不僅能夠容納匯聚各類數(shù)據(jù),同時(shí)還可對(duì)上層應(yīng)用提供標(biāo)準(zhǔn)POSIX接口,兼容Amazon S3協(xié)議接口,以及大數(shù)據(jù)服務(wù)接口,一套存儲(chǔ)支持多種協(xié)議接口,滿足AI訓(xùn)練各階段對(duì)數(shù)據(jù)的訪問訴求,支撐AI數(shù)據(jù)處理的全套流程,構(gòu)建了一個(gè)安全、共享、高效存取的“數(shù)據(jù)湖”。

最后,MOSFS針對(duì)AI訓(xùn)練的特性,開發(fā)了多級(jí)分布式緩存架構(gòu),將熱點(diǎn)數(shù)據(jù)(如正在訓(xùn)練的數(shù)據(jù)集)緩存在高性能介質(zhì)中,如NVMe SSD、MEM等,將非熱點(diǎn)數(shù)據(jù)存儲(chǔ)在大容量介質(zhì)中,既保證了極致的響應(yīng)時(shí)延,充分釋放出GPU等特殊硬件的算力,橫向擴(kuò)展帶來的近似線性增加的容量和性能又保障了高帶寬和超大的容量。

如下圖所示,在國(guó)內(nèi)某AI領(lǐng)域獨(dú)角獸企業(yè)的選型測(cè)試過程中,通過采用杉巖數(shù)據(jù)MOSFS存儲(chǔ)解決方案,相比采用傳統(tǒng)分布式NAS存儲(chǔ),訓(xùn)練時(shí)長(zhǎng)縮短了5倍,GPU利用率提升了近3個(gè)百分點(diǎn)。

如圖片無法顯示,請(qǐng)刷新頁面
如圖片無法顯示,請(qǐng)刷新頁面

注:訓(xùn)練計(jì)算節(jié)點(diǎn)相同,數(shù)據(jù)集ImageNet分別存于本地(4TB SATA SSD)、MOSFS(960GB SATA SSD + 4T*10 SATA HDD)和某商用分布式NAS(6TB SAS)時(shí),進(jìn)行AI訓(xùn)練,模型采用ResNet18。

隨著科技的進(jìn)步,AI作為新一輪產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力,將催生新技術(shù)、新產(chǎn)品、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式,實(shí)現(xiàn)社會(huì)生產(chǎn)力的整體提升。MOSFS作為杉巖數(shù)據(jù)針對(duì)AI、大數(shù)據(jù)等新型業(yè)務(wù)場(chǎng)景而打造的智能分布式存儲(chǔ)解決方案,針對(duì)傳統(tǒng)存儲(chǔ)在新業(yè)務(wù)場(chǎng)景下的痛點(diǎn),全新設(shè)計(jì)優(yōu)化,實(shí)現(xiàn)了在性能、容量和擴(kuò)展性之間的全面平衡,將助力企業(yè)進(jìn)一步釋放數(shù)據(jù)潛能,加速數(shù)字化轉(zhuǎn)型,為AI在國(guó)民經(jīng)濟(jì)各行各業(yè)中更好的落地開花貢獻(xiàn)力量。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version