隨著數(shù)據(jù)分析和人工智能應(yīng)用的普及,企業(yè)數(shù)據(jù)量大增,創(chuàng)新業(yè)務(wù)層..."/>
ITBear旗下自媒體矩陣:

從數(shù)據(jù)到洞察,看杉巖對象存儲如何支撐新型數(shù)據(jù)湖

   時間:2020-09-08 16:00:56 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

傳統(tǒng)數(shù)據(jù)湖面臨性能挑戰(zhàn)

隨著數(shù)據(jù)分析和人工智能應(yīng)用的普及,企業(yè)數(shù)據(jù)量大增,創(chuàng)新業(yè)務(wù)層出不窮,企業(yè)對數(shù)據(jù)分析靈活性、性能和成本的要求越來越高,傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺已無法滿足企業(yè)的要求。越來越多的企業(yè)以數(shù)據(jù)湖為基礎(chǔ)構(gòu)建大數(shù)據(jù)處理平臺,數(shù)據(jù)湖的典型特征是存儲和計算分離,能夠降低系統(tǒng)成本同時獲得更好的系統(tǒng)擴展性。

數(shù)據(jù)湖架構(gòu)使得企業(yè)可以在一份數(shù)據(jù)上拓展創(chuàng)新業(yè)務(wù),而不必每發(fā)展一個新業(yè)務(wù)就做一次數(shù)據(jù)拷貝,但傳統(tǒng)數(shù)據(jù)湖方案在性能上仍然存在明顯的缺點,傳統(tǒng)數(shù)據(jù)湖依賴云存儲,雖然降低了存儲成本,但在數(shù)據(jù)分析的過程中完全依靠云存儲自身的吞吐能力進行數(shù)據(jù)掃描,這種方式只適用于ETL、批量計算等時延不敏感的應(yīng)用,卻無法支撐秒級數(shù)據(jù)檢索、時序數(shù)據(jù)分析等低時延的分析場景。

數(shù)據(jù)湖支撐大數(shù)據(jù)分析和機器學(xué)習(xí)平臺

除了服務(wù)傳統(tǒng)的Hadoop/Spark大數(shù)據(jù)分析平臺,數(shù)據(jù)湖還需要滿足AI算法的模型訓(xùn)練和推理、數(shù)據(jù)歸檔的需求,這要求存儲系統(tǒng)支持多種協(xié)議以提升處理效率。比如在自動駕駛模型訓(xùn)練及分析場景中,車輛采集的視頻、雷達數(shù)據(jù)需要通過文件或?qū)ο蠼涌趯?dǎo)入存儲,然后通過HDFS接口對數(shù)據(jù)預(yù)處理,預(yù)處理結(jié)果再通過文件接口由計算服務(wù)器進行AI訓(xùn)練和高性能仿真,從而得到新的算法和模型進行下一輪測試。這些需求不是單一的對象存儲或HDFS存儲能夠支撐的,需要更專業(yè)的存儲平臺提供服務(wù)。

杉巖數(shù)據(jù)的MOS海量對象存儲通過異構(gòu)納管的方式,可以整合管理已有的HDFS數(shù)據(jù)源和NAS數(shù)據(jù)源,通過混合云存儲方案,可以將存儲在公有云的數(shù)據(jù)也納入到MOS對象存儲池統(tǒng)一管理。杉巖數(shù)據(jù)近期發(fā)布的MosFS高性能數(shù)據(jù)湖文件網(wǎng)關(guān)在系統(tǒng)架構(gòu)中位于MOS對象存儲池之上,為Hadoop/Spark大數(shù)據(jù)分析平臺和TensorFlow/PyTorch/Caffe等機器學(xué)習(xí)平臺提供原生的HDFS接口、S3/OSS對象接口、POSIX文件接口。

https://mmbiz.qpic.cn/mmbiz_png/NECU4hOSaImMgz9GX6Iz2PoqmjiaBGQLHa8oUX00ibrvatkicVxeAXQewibJwHrWsP2VKua3OiblDsRAm9V1DbRW8RA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

圖1:數(shù)據(jù)湖文件網(wǎng)關(guān)架構(gòu)

MOS對象存儲和MosFS文件網(wǎng)關(guān)組合構(gòu)建的數(shù)據(jù)湖架構(gòu)為企業(yè)統(tǒng)一管理眾多的數(shù)據(jù)源,實現(xiàn)高性能存儲和數(shù)據(jù)治理提供了堅實的基礎(chǔ)。

·高效率的多數(shù)據(jù)源管理

MOS可以納管第三方的NAS存儲、對象存儲和HDFS數(shù)據(jù)源,并通過映射的方式對上層提供數(shù)據(jù)服務(wù),可以在現(xiàn)有的IT架構(gòu)中實現(xiàn)存儲系統(tǒng)的快速割接,漫長的數(shù)據(jù)遷移可以在后臺異步執(zhí)行。統(tǒng)一管理的數(shù)據(jù)可以為多套平臺和應(yīng)用服務(wù),不需要多重復(fù)制,減少對存儲空間的需求。

·內(nèi)容感知的多級緩存加速

機器學(xué)習(xí)平臺在模型訓(xùn)練中要求數(shù)據(jù)的超高吞吐量和超低延遲,MosFS可以和上層應(yīng)用聯(lián)動,通過標簽感知與應(yīng)用關(guān)聯(lián)度高的數(shù)據(jù),機器學(xué)習(xí)平臺可以通過路徑、數(shù)據(jù)標簽、多策略組合等方式得到相關(guān)性高的數(shù)據(jù)集。在實際運行中,MosFS把上述數(shù)據(jù)映射成目錄,并通過內(nèi)存和SSD多級緩存來加速數(shù)據(jù)訪問。比如在自動駕駛的訓(xùn)練中,算法需要所有車輛在白天的四車道上捕獲的視頻和圖片,MosFS就可以通過這些數(shù)據(jù)特征對應(yīng)的標簽,將MOS存儲資源池中的相關(guān)數(shù)據(jù)映射為一個目錄,并通過多級緩存提供給訓(xùn)練算法。

·多策略數(shù)據(jù)映射簡化管理

MosFS的數(shù)據(jù)映射能力實現(xiàn)了數(shù)據(jù)訪問的虛擬化,并通過全局命名空間將數(shù)據(jù)呈現(xiàn)給上層應(yīng)用,基于時間、標簽、文件名前綴等多粒度策略可以簡化對數(shù)據(jù)的管理。

性能逼近本地全閃存的分布式數(shù)據(jù)湖文件網(wǎng)關(guān)

MosFS文件網(wǎng)關(guān)與MOS對象存儲可以合設(shè)也可以分離部署,為了滿足機器學(xué)習(xí)平臺超高吞吐量和超低延遲的性能要求,通常將MosFS分布式部署于計算服務(wù)器,在這種情況下,MosFS將計算服務(wù)器的本地預(yù)留內(nèi)存和SSD組成一個分布式的緩存層以加速訓(xùn)練。傳統(tǒng)分布式NAS作為機器學(xué)習(xí)后端存儲的方案具有成本高昂、數(shù)據(jù)與其它類型存儲不能互通等缺點,數(shù)據(jù)管理復(fù)雜造成訓(xùn)練效率低下,相比而言MosFS的方案可以管理MOS、原有NAS和HDFS存儲,統(tǒng)一所有數(shù)據(jù)視圖,且分布式數(shù)據(jù)緩存可以將訓(xùn)練效率提升多倍,性能接近于使用計算服務(wù)器的本地SSD。

https://mmbiz.qpic.cn/mmbiz_png/NECU4hOSaImMgz9GX6Iz2PoqmjiaBGQLHcEQKjMcCCVheCic1Ox77ZyUPhPWZMzwmfuchOeYa9yGTrqNYxEKCRZA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

圖2:數(shù)據(jù)湖文件網(wǎng)關(guān)分布式部署于計算服務(wù)器

HDFS協(xié)議增強實現(xiàn)大數(shù)據(jù)存算分離

HDFS作為傳統(tǒng)的數(shù)據(jù)倉庫存儲平臺在數(shù)據(jù)湖場景下面臨性能和成本的問題。在實際應(yīng)用中,在10~20PB以上的數(shù)據(jù)規(guī)模下,HDFS的性能下降嚴重,另外HDFS基本只支持多副本的存儲模式,對糾刪碼的支持效果不佳。MosFS和MOS組合構(gòu)建的數(shù)據(jù)湖存儲兼容HDFS接口和S3協(xié)議,可以實現(xiàn)存儲和Hadoop計算平臺的分離,幫助客戶把HDFS的數(shù)據(jù)統(tǒng)一歸集到MOS存儲中,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理。MosFS提供的原生HDFS接口100%兼容主流平臺,并在內(nèi)部實現(xiàn)了S3/OSS與HDFS接口協(xié)議的互通轉(zhuǎn)換,避免數(shù)據(jù)多次拷貝。

https://mmbiz.qpic.cn/mmbiz_png/NECU4hOSaImMgz9GX6Iz2PoqmjiaBGQLHZRTHPKIPWYLrSh5lycOTFt66ibGOD0fUGPyzdJulLdO599oPvRNDzGQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

圖3:數(shù)據(jù)湖架構(gòu)實現(xiàn)存算分離

大數(shù)據(jù)分析和AI訓(xùn)練推理融合的需求越來越多,傳統(tǒng)的大數(shù)據(jù)存儲僅提供HDFS接口,大數(shù)據(jù)分析的結(jié)果如果用于AI訓(xùn)練,需要把數(shù)據(jù)拷貝到其它存儲中處理,導(dǎo)致數(shù)據(jù)分析整體效率的低下,也浪費了存儲空間。杉巖新型數(shù)據(jù)湖架構(gòu)既能提供HDFS接口用于大數(shù)據(jù)分析,又能提供文件和對象接口用于AI訓(xùn)練推理,大數(shù)據(jù)分析結(jié)果可直接通過文件接口訪問,無需拷貝和等待,很大程度上提升了融合場景的大數(shù)據(jù)分析效率。

AI訓(xùn)練實踐案例

類腦智能技術(shù)及應(yīng)用國家工程實驗室是由中國科技大學(xué)組建,由中科院、復(fù)旦大學(xué)、微軟、百度等機構(gòu)共同承建的國家工程實驗室,中科類腦成立于2017年,是該實驗室的產(chǎn)業(yè)化平臺,通過搭建“先進人工智能算法+公有計算云+私有部署云”的智能混合云平臺,對外提供計算資源、人工智能技術(shù)、智能化解決方案等服務(wù)。

中科類腦開發(fā)的類腦云OS提供了大規(guī)模算力、數(shù)據(jù)和智能技術(shù),有效降低人工智能創(chuàng)業(yè)門檻,能夠促進人工智能應(yīng)用生態(tài)的發(fā)展,賦能各行業(yè)完成智能升級轉(zhuǎn)型。目前該平臺已經(jīng)匯聚了180項AI前沿算法、100類通用數(shù)據(jù)集,具備豐富的平臺建設(shè)和行業(yè)落地經(jīng)驗。

杉巖新型數(shù)據(jù)湖架構(gòu)已經(jīng)在類腦云OS得到應(yīng)用,根據(jù)中科類腦的訓(xùn)練方案,數(shù)據(jù)集分別放在本地SSD、分布式NAS存儲和杉巖MosFS+MOS上,性能對比測試結(jié)果表明,MosFS訓(xùn)練耗時與本地SSD接近,對比分布式NAS,MosFS在單GPU節(jié)點下讀取性能提升62.5%,雙GPU節(jié)點分布式訓(xùn)練的性能提升75.8%。集群規(guī)模越大,杉巖數(shù)據(jù)湖方案的性能越能得到體現(xiàn),表現(xiàn)出了優(yōu)秀的擴展性。

如圖片無法顯示,請刷新頁面

圖4:本地SSD、MosFS、NAS的模型訓(xùn)練性能對比

小結(jié):智能應(yīng)用和大數(shù)據(jù)分析需要智能的新型數(shù)據(jù)湖

數(shù)據(jù)基礎(chǔ)設(shè)施正在走向智能和融合。數(shù)據(jù)湖如果不能實現(xiàn)有效的數(shù)據(jù)管理,就會變成“數(shù)據(jù)沼澤”,智能管理要求存儲提供多維度的檢索能力、生命周期管理能力以及數(shù)據(jù)可視化能力,實現(xiàn)數(shù)據(jù)的合理分類與管理,加速數(shù)據(jù)清洗、轉(zhuǎn)換、流動的過程。存儲與計算架構(gòu)實現(xiàn)分離,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存放在數(shù)據(jù)湖中,海量的數(shù)據(jù)得以在數(shù)據(jù)湖中實現(xiàn)融合,不同類型數(shù)據(jù)存儲的界限逐漸模糊。

人工智能和大數(shù)據(jù)分析應(yīng)用的融合使得一份數(shù)據(jù)能夠同時提供給多個計算及分析流程使用,新一代數(shù)據(jù)湖存儲平臺必須具備多源數(shù)據(jù)管理能力,包括混合云能力與異構(gòu)納管其它存儲的能力,以及可智能感知內(nèi)容的高性能多協(xié)議數(shù)據(jù)服務(wù)能力。新型數(shù)據(jù)湖架構(gòu)必將為數(shù)據(jù)分析和智能應(yīng)用的開發(fā)和運行帶來巨大的便利,加快迭代分析過程,簡化基礎(chǔ)設(shè)施需求,提供綜合的數(shù)據(jù)服務(wù)能力,方便人們高效率地提取數(shù)據(jù)價值。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version