ITBear旗下自媒體矩陣:

搞醫(yī)學影像,為什么都青睞于CPU?

   時間:2024-05-31 21:20:06 來源:ITBEAR編輯:汪淼 發(fā)表評論無障礙通道

醫(yī)學影像,越來越需要AI的幫助了。

根據(jù)數(shù)據(jù)統(tǒng)計,目前我國醫(yī)學影像數(shù)據(jù)年增速在30%,但影像科醫(yī)生年增速卻只有4%,醫(yī)生面臨較大的工作壓力。

那么,AI醫(yī)學影像市場發(fā)展得如何呢?

AI影像行業(yè),是人工智能在醫(yī)療領(lǐng)域里面探索最久的賽道之一,近年來人工智能輔助診斷三類證的獲批數(shù)量持續(xù)增長,整個人工智能醫(yī)學影像市場預計會在4年左右的時間突破百億,保持高增長。參考億歐智庫發(fā)布的《2023年中國人工智能醫(yī)學影像產(chǎn)品生態(tài)路線研究報告》,2023年我國AI醫(yī)學影像市場規(guī)模為24億元,2030年將達到 137.4億元,年復合增長率為33.8%。

雖然有了AI幫忙,能提升診療效率、改善患者就醫(yī)體驗,但同時也帶來一個問題:

醫(yī)院對于醫(yī)學影像系統(tǒng)的花費越來越高了,患者看病的成本也大幅提高。

所以在這個技術(shù)飛速進步的時代,醫(yī)院不是簡單采用新技術(shù)就能造福患者的,也要綜合考慮投入產(chǎn)出,才能關(guān)懷到每個病人。

在這樣的背景下,醫(yī)學影像系統(tǒng)如何在滿足功能、性能需求的同時降低總體擁有成本 (TCO),就成了關(guān)鍵問題。

以東軟智慧醫(yī)學影像信息系統(tǒng)PACS/RIS為例,該系統(tǒng)提供了覆蓋檢查預約、到診排隊、用藥管理、檢查管理、影像診斷等在內(nèi)的一體融合全醫(yī)學影像管理能力,可輔助醫(yī)生更好地開展工作。東軟在新一代的PACS/RIS產(chǎn)品中,就采用了基于CPU的方案運行三維可視化、AI推理等工作負載。

在三維可視化加持下,融合影像分析等技術(shù),讓醫(yī)務人員通過旋轉(zhuǎn)、縮放、分割、圖像增強等操作,從多角度清晰了解到醫(yī)學影像中各結(jié)構(gòu)之間的空間位置關(guān)系,在疾病診斷的可視化、術(shù)前評估、手術(shù)規(guī)劃、手術(shù)實時指導等方面發(fā)揮重要價值。

要知道三維可視化、AI推理都是非常吃硬件性能的,好在經(jīng)過指令集、軟件等方面做性能優(yōu)化后,東軟將PACS/RIS系統(tǒng)的三維可視化效率提升達2.45倍,AI推理性能提升高達8.49倍,并有效地控制了成本。

到這里看似圓滿結(jié)局了,但其實過程中還有更多的細節(jié)更值得關(guān)注和借鑒,比如系統(tǒng)性能是如何優(yōu)化提升上去的,CPU又為什么是破局的關(guān)鍵?

##性能如何搞上去?

東軟集團相信大家并不陌生,作為中國第一家上市軟件公司,在醫(yī)療健康領(lǐng)域已深耕多年。

這次他們之所以選擇英特爾當合作伙伴,正是因為在三維可視化和AI推理這兩大性能殺手面前,第五代英特爾? 至強? 可擴展處理器擁有兩大法寶:

OpenMP與SSE4(Streaming SIMD Extensions 4)指令集,和英特爾? AMX加速器。

首先來看三維可視化部分。

東軟主要采用了體渲染(Volume Rendering)技術(shù),通過OpenMP與SSE4指令集支持光線合成的實現(xiàn)。

SSE4指令集不僅擴展了Intel? 64指令集架構(gòu),還加入了圖形、視頻編碼及處理、三維成像等方面的指令,使涉及音頻、圖像和數(shù)據(jù)壓縮算法的應用程序性能大幅提升。

為了找出執(zhí)行三維可視化任務時,其產(chǎn)品在部分應用中性能不足的瓶頸所在,東軟使用了英特爾提供的VTune? Profiler工具,最終確定了瓶頸函數(shù)SafeGradz。該函數(shù)主要利用SSE4指令集進行三線性插值,從而實現(xiàn)光線上點的梯度計算。通過對該函數(shù)的代碼進行優(yōu)化,東軟成功提升了三維可視化應用的性能。

在不同代英特爾? 至強? 可擴展處理器上進行測試,結(jié)果顯示,在處理器開通4并發(fā)8線程時,第五代英特爾? 至強? 鉑金8592+處理器的三維重建效率,相比第二代的英特爾? 至強? 銀牌4210R處理器提升達2.45倍,讓三維影像的交互更加流暢順滑。

圖注:PACS/RIS 系統(tǒng)的三維重建應用運行效率比較

第五代英特爾? 至強? 鉑金8592+的主頻為1.90GHz,比第二代英特爾? 至強? 銀牌4210R的2.40GHz主頻還要低。

更進一步說明了,性能提升靠的不是主頻提升,而是靠適合工作負載的指令集和各種優(yōu)化工作。

接下來看AI推理部分。

東軟借助處理器內(nèi)置的英特爾? AMX(高級矩陣擴展)技術(shù),讓CPU也能輕松駕馭深度學習任務。

英特爾? AMX針對廣泛的硬件和軟件進行了優(yōu)化,在前代VNNI和BF16技術(shù)的基礎(chǔ)上,進一步增強了矩陣計算能力,最大限度地利用計算資源,改善高速緩存利用率,避免潛在的帶寬瓶頸。

東軟在第二代/第四代/第五代英特爾? 至強? 可擴展處理器上,測試了不同參數(shù)規(guī)模的AI模型在同步和異步模式下的推理表現(xiàn)。

測試數(shù)據(jù)顯示,對于參數(shù)量為31,185,568的較大模型,在BF16精度和異步模式下,第五代英特爾? 至強? 鉑金8592+處理器相比第二代英特爾? 至強? 銀牌4210R處理器,推理性能提升高達8.49倍。這意味著AI輔助診斷能以更快的速度為醫(yī)生提供洞見。

圖注:BF16 精度下的異步推理性能比較

之所以選擇第五代英特爾? 至強? 可擴展處理器,除了其本身性能夠強之外,還有一些額外的好處。

比如輔以英特爾提供的OpenVINO? 工具套件優(yōu)化和部署各類模型,還可跨英特爾? 硬件擴展計算機視覺和非視覺工作負載,從而大幅提高性能,達到軟硬協(xié)同的效果。

又比如第五代至強? 與上一代產(chǎn)品在軟件和平臺上兼容,因此在部署新系統(tǒng)時可以大大減少測試和驗證工作。

……

在減少測試和驗證這里,其實也起到一些節(jié)省成本的效果了。

不過在省錢這件事上,除了與具體技術(shù)優(yōu)化相關(guān),還有更多行業(yè)經(jīng)驗可以分享。

##成本怎么打下來

其實醫(yī)療行業(yè)在選擇硬件這件事上,CPU早已成為各大玩家們眼中的“香餑餑”

原因也是很簡單,GPU固然在性能方面存在一定的優(yōu)勢,但“硬傷”也是比較明顯,那便是成本過高。

并且從宏觀角度來看,大模型的火熱確實催動了GPU需求的激增,在訓練階段尤甚;但現(xiàn)如今到了以推理為主的階段,如何能讓AI“快好省”地用起來成為了關(guān)鍵點。在部署時盲目堆GPU不僅可能會造成算力過剩,出現(xiàn)“大炮打蚊子”的現(xiàn)象,更是會導致成本的“水漲船高”。

而諸如第五代英特爾? 至強? 這樣的高端CPU,不僅能夠很好地跟上性能的腳步,在成本的控制方面也是給出了滿足成本條件的更加可行、更符合實際的方案。

一言蔽之,高性價比才是關(guān)鍵中的關(guān)鍵。

其次,CPU也算找準了“賽道”——部分醫(yī)療場景的AI推理具備批處理特性,對AI推理時延性能不敏感,更適合采用CPU進行推理。

具體到性能方面,第五代英特爾? 至強? 的“打開方式”是這樣的:

●整體性能提升:21%

●推理性能提升:42%

●內(nèi)存速度提升:16%

●三級緩存提升:2.7倍

●每瓦性能提升:10倍

也正因如此,第五代英特爾? 至強? 在處理多樣化的任務負載時,可以顯著提升每瓦特性能,尤其在人工智能、數(shù)據(jù)中心管理、網(wǎng)絡操作和科學計算領(lǐng)域,而且還能顯著降低總體擁有成本(TCO)。

而這也還僅是東軟等醫(yī)療行業(yè)選擇CPU的原因之一,廣泛的兼容性和成熟的技術(shù)也是不可忽視的。

眾所周知,CPU技術(shù)的發(fā)展相對來說較為成熟,幾乎所有軟件應用和操作系統(tǒng)都能在CPU上良好運行。

而在醫(yī)療行業(yè)中,存在大量基于傳統(tǒng)架構(gòu)開發(fā)的軟件,這些軟件通常設計為在標準的CPU上運行。因此,使用CPU可以確保與現(xiàn)有系統(tǒng)和軟件的廣泛兼容性。

其次,CPU易于維護和升級也是重要的一點,而GPU在這方面會顯得更為復雜。醫(yī)療行業(yè)依賴于穩(wěn)定運行的系統(tǒng)來保證服務的連續(xù)性,因此更傾向于選擇維護簡便、升級路徑明確的硬件解決方案。

加之CPU早已在醫(yī)療行業(yè)上崗,廣泛用于電子病歷系統(tǒng)、醫(yī)院資源規(guī)劃系統(tǒng)等,培養(yǎng)出成熟的技術(shù)團隊,也建立了完善的采購流程。

因此,為什么醫(yī)療行業(yè)青睞于CPU、為什么越來越多的人會選擇CPU做AI推理,也就不難理解了。

在這一點上,或許也正應了英特爾CEO帕特·基辛格曾經(jīng)表達過的觀點:

>從經(jīng)濟學的角度看推理應用的話,很多客戶并不需要高端的GPU設備,因為它成本太高,耗電太多,并且需要構(gòu)建新的技術(shù)架構(gòu),以及新的IT設施,一切都是全新的挑戰(zhàn)。

>如果我能在標準版的英特爾芯片上運行AI應用且滿足需求,就不會出現(xiàn)這些問題。

##能用起來才是硬道理

如果說東軟選擇第五代英特爾? 至強? 這件事是一個“點”,它其實能夠帶出來的是一個更大的“面”——

技術(shù),需得廣泛用起來,這才是硬道理。

誠然現(xiàn)在是以大模型為主流的時代,但回看2023年至今的發(fā)展,其實也是在印證著這一點。

起初大模型的發(fā)展先是掀起了以訓練為主的百模大戰(zhàn),而后又迅速轉(zhuǎn)向了推理階段,也就是技術(shù)要落地。

到了今年,這一趨勢也是越發(fā)明顯,不論是OpenAI、谷歌等巨頭,還是乘AIGC東風起家的初創(chuàng),都在發(fā)力于如何讓AIGC更好地用起來。

一言蔽之,現(xiàn)在已然是應用為王的階段。

而要讓前沿技術(shù)做到真正落地,就必須要在性能和成本之間做好平衡;或許這也正是近期國內(nèi)大廠們掀起瘋狂“價格戰(zhàn)”的原因之一。

但無論AI如何發(fā)展,算力,永遠是繞不開的一個話題。

因此,站在現(xiàn)在這個“AI一日,人間一年”的時代,縱使技術(shù)日新月異,要想讓它們廣泛被用起來,性能和成本之間的這桿秤,需是得從最底層的基礎(chǔ)設施抓起。

而東軟和英特爾的合作模式,是一個可以值得借鑒的“范本”了。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version