ITBear旗下自媒體矩陣:

深信服攜手清華大學(xué)智能產(chǎn)業(yè)研究院:用高性能文件存儲(chǔ)助力AI應(yīng)用落地

   時(shí)間:2023-02-22 17:23:21 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評(píng)論無障礙通道

“人工智能應(yīng)用落地的‘高歌猛進(jìn)’,是有人在‘負(fù)重前行’?!?/p>

王博士(化名)作為清華大學(xué)智能產(chǎn)業(yè)研究院自動(dòng)駕駛課題組的一員,負(fù)責(zé)車路協(xié)同數(shù)據(jù)集的訓(xùn)練工作。

課題研究中,王博士在電腦上要處理成千上萬張圖片:每一張圖片,道路軌跡、建筑形狀都不盡相同,一張圖片里可以拆分出好幾個(gè)標(biāo)簽,這是他每天都要面對(duì)的“復(fù)雜”標(biāo)注題。

“我們拿到這些文件之后,可以挖掘出很多信息,然后不斷地去進(jìn)行標(biāo)注。既要保證標(biāo)注的效率,也要保證質(zhì)量,這樣才能訓(xùn)練出更精準(zhǔn)的AI模型?!?/p>

圖片來源:清華大學(xué)智能產(chǎn)業(yè)研究院官網(wǎng)

自動(dòng)駕駛,是清華大學(xué)智能產(chǎn)業(yè)研究院的研究課題之一。作為一所面向第四次工業(yè)革命的國際化、智能化、產(chǎn)業(yè)化研究機(jī)構(gòu),這里匯聚了來自全球的國際頂尖科學(xué)家、產(chǎn)業(yè)變革領(lǐng)袖和世界級(jí)研創(chuàng)團(tuán)隊(duì)。

他們站在國際科技前沿,引領(lǐng)中國的科技創(chuàng)新,探索著自動(dòng)駕駛、生物計(jì)算、綠色計(jì)算等領(lǐng)域的未解之謎。

AI“更懂”人類的背后,是大量數(shù)據(jù)訓(xùn)練的結(jié)果。

時(shí)逢2022年的9月,清華大學(xué)智能產(chǎn)業(yè)研究院的多項(xiàng)科研工作都在和時(shí)間賽跑。就在這時(shí),清華大學(xué)智能產(chǎn)業(yè)研究院的十多個(gè)課題組感受到了AI研究工作的“阻力”,“給圖像做標(biāo)注時(shí),圖片遲遲加載不出來;檢索圖片,系統(tǒng)也要卡很久?!?/p>

原來,訓(xùn)練AI數(shù)據(jù)集需要存儲(chǔ)大量數(shù)據(jù),數(shù)據(jù)量很快就達(dá)到百TB級(jí),而傳統(tǒng)存儲(chǔ)陣列在龐大的數(shù)據(jù)量面前“不堪重負(fù)”,沒有展示出最佳的性能、可擴(kuò)展性等能力,導(dǎo)致科研工作者們在實(shí)際操作時(shí)遇到了卡慢問題。

面對(duì)存儲(chǔ)性能提升的難題,信服云EDS為清華大學(xué)智能產(chǎn)業(yè)研究院設(shè)計(jì)了高性能文件存儲(chǔ)方案。480TB存儲(chǔ)空間配置完成后,有了充足的存儲(chǔ)空間,科研工作者們可以放心地開展AI訓(xùn)練的工作。

一個(gè)可以盡情“馳騁”的存儲(chǔ)底座,背后是信服云EDS“剛?cè)岵?jì)”的實(shí)力。

在硬件上,信服云EDS采用通用的X86服務(wù)器搭配NVMe固態(tài)硬盤的組合形式,構(gòu)建存儲(chǔ)高性能層,這使得訓(xùn)練集群訪問數(shù)據(jù)時(shí),可以優(yōu)先經(jīng)過高性能層的緩存加速,相較于傳統(tǒng)磁盤陣列,存儲(chǔ)性能有了大幅提升。

在軟件上,信服云EDS通過自研的分布式高性能文件系統(tǒng),利用小文件合并、phxkv分布式元數(shù)據(jù)庫、智能預(yù)加載等自研技術(shù),提高KB級(jí)小文件的元數(shù)據(jù)和數(shù)據(jù)處理效率,有效保障AI訓(xùn)練過程中訪問數(shù)據(jù)的效率,并大幅縮短了科研中的AI訓(xùn)練時(shí)間。

對(duì)于清華大學(xué)智能產(chǎn)業(yè)研究院而言,選擇一款存儲(chǔ)產(chǎn)品首要關(guān)注的是性能。因?yàn)榭蒲泄ぷ髡咴跇?biāo)注數(shù)據(jù)時(shí),需要不停地讀取文件和創(chuàng)建文件,頻繁的操作中無疑會(huì)增加元數(shù)據(jù)的訪問耗時(shí),CPU算力也會(huì)受到影響,而信服云EDS讓讀寫文件的性能徹底告別了卡慢。

其實(shí),信服云EDS和用戶的雙向奔赴,不止于此:
 
容量與性能的同步擴(kuò)展,見證千行百業(yè)的騰飛與發(fā)展。

“我們現(xiàn)在的容量使用率已經(jīng)超過90%,但性能絲毫沒有受影響。”除了提供穩(wěn)定一致的性能表現(xiàn),信服云EDS靈活擴(kuò)展的能力,也在不斷刷新用戶的預(yù)期。考慮到研究院數(shù)據(jù)規(guī)模不斷增長的情況,信服云EDS支持同時(shí)擴(kuò)展容量和性能,這打破了傳統(tǒng)存儲(chǔ)架構(gòu)的局限性。

在傳統(tǒng)存儲(chǔ)架構(gòu)中,容量增長到一定程度,性能的增長不會(huì)相應(yīng)增加,甚至還會(huì)出現(xiàn)性能下降的現(xiàn)象。而信服云EDS實(shí)現(xiàn)了容量和性能的同步擴(kuò)展,在容量擴(kuò)展的同時(shí),存儲(chǔ)性能也隨之線性增長。以集群規(guī)模擴(kuò)展至8節(jié)點(diǎn)為例,混合盤配置4KB隨機(jī)讀可達(dá)120萬IOPS。

故障閉環(huán)處理的設(shè)計(jì),是保障業(yè)務(wù)可靠運(yùn)行的底氣。

在注重高性能的同時(shí),業(yè)務(wù)連續(xù)性和數(shù)據(jù)可靠性也不可忽視。為此,信服云EDS構(gòu)建了完整的故障閉環(huán)處理框架:

在故障發(fā)生前,通過硬件亞健康預(yù)測、檢測和數(shù)據(jù)多副本、糾刪碼等機(jī)制,幫助用戶提前預(yù)防故障的發(fā)生;亞健康的可視化監(jiān)控,則讓用戶感知硬盤健康狀態(tài),提前做好備件采購和替換準(zhǔn)備工作。

在故障發(fā)生時(shí),通過亞健康硬件自動(dòng)隔離、智能數(shù)據(jù)修復(fù)、I/O路徑自動(dòng)切換等機(jī)制,自動(dòng)處置問題,最大化減輕運(yùn)維的壓力,同時(shí)也保障了業(yè)務(wù)連續(xù)性和數(shù)據(jù)可靠性。如若發(fā)生人為誤刪除、惡意刪除或超過冗余機(jī)制范圍的故障等情況,可通過快照備份、回收站等機(jī)制快速找回?cái)?shù)據(jù)。

這些高可靠的設(shè)計(jì),也是用戶堅(jiān)定選擇信服云EDS的理由之一。

截至目前,信服云EDS已經(jīng)累計(jì)參與交付超過20000個(gè)客戶和300+例PB級(jí)項(xiàng)目,在AI訓(xùn)練、衛(wèi)星遙感、醫(yī)療影像、動(dòng)漫制作、軟件開發(fā)等場景獲得了用戶的廣泛認(rèn)可。

從蒸汽技術(shù)革命到信息技術(shù)革命,科技一次次改變著世界。

這一次,AI的想象力更是無限。這些面向未來交通、醫(yī)療、綠色發(fā)展的難題,也正在一步步被清華大學(xué)智能產(chǎn)業(yè)研究院的科學(xué)家們“拿下”:

發(fā)布全球首個(gè)真實(shí)場景車路協(xié)同數(shù)據(jù)集

研發(fā)出連續(xù)獲得全球第一的自動(dòng)化蛋白質(zhì)結(jié)構(gòu)預(yù)測平臺(tái)

綠色計(jì)算5G網(wǎng)絡(luò)智能減碳技術(shù)獲得吳文俊人工智能科技進(jìn)步獎(jiǎng)

丈量寰宇,眺望星辰。在科技領(lǐng)航者的探索下,智能時(shí)代正以一種前所未有的清晰度呈現(xiàn)在我們面前。信服云EDS身處這個(gè)偉大的時(shí)代中,將集自身之所長,融用戶之所需,助力科研工作者們在數(shù)據(jù)的浩瀚宇宙中,自由翱翔。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version