作者:馬超
王師北定中原日,家書(shū)勿忘告乃翁。在新任CEO帕特·基辛格回歸以后,英特爾推出至強(qiáng)三代Ice Lake-SP處理器。Ice Lake-SP的發(fā)布,不但用最好的方式告慰了近幾年相繼離世的前任掌門(mén)人葛洛夫和歐德寧,同時(shí)也給了那些將英特爾戲稱為“牙膏廠”的聲音予以相應(yīng)的回?fù)簟?/p>
Ice Lake-SP與去年6月發(fā)布的Cooper Lake-SP處理器,共同構(gòu)成第三代至強(qiáng)可擴(kuò)展處理器系列。在最新的Ice Lake-SP的處理器中,英特爾使用10 納米制程工藝,每顆CPU可提供的核心個(gè)數(shù)也由28個(gè)上升到40個(gè),綜合性能指標(biāo)提高2.65 倍,每插槽最多可支持6TB的DDR4-3200內(nèi)存,支持8內(nèi)存通道和 64 個(gè)四代 PCIe 通道。
與很多硅谷大佬一樣,帕特·基辛格也是在十八九歲年紀(jì)輕輕時(shí)就走上了工作崗位。不同的是,在英特爾的資助下,帕特拿到了圣克拉拉大學(xué)的電氣工程學(xué)士學(xué)位和斯坦福大學(xué)計(jì)算機(jī)科學(xué)的碩士學(xué)位,而且帕特的學(xué)位絕不是個(gè)簡(jiǎn)單走個(gè)過(guò)場(chǎng)、鍍個(gè)金,RISC之父、谷歌母公司Alphabet現(xiàn)任董事長(zhǎng)約翰·亨尼斯就是他在斯坦福的碩士導(dǎo)師。
碩士畢業(yè)后,帕特·基辛格在80386的研發(fā)工作中逐漸嶄露頭角,并被時(shí)任CEO安迪·葛洛夫所賞識(shí),后來(lái)帕特主導(dǎo)了80486芯片的設(shè)計(jì)工作,帶領(lǐng)英特爾取得了成功。2000年,帕特·基辛格正式出任公司CTO,歷史總是向人們展示其相似之美,2001年其作為CTO見(jiàn)證了初代至強(qiáng)芯片的從無(wú)到有,20年后他又作為CEO主導(dǎo)了三代至強(qiáng)的發(fā)布。
這次至強(qiáng)三代在安全計(jì)算、AI加速、云優(yōu)化及存儲(chǔ)提速方面都有實(shí)質(zhì)性進(jìn)展,這些新技術(shù)不但讓聯(lián)通這樣的通訊運(yùn)營(yíng)商有了更強(qiáng)大的流量處理能力;也讓中興、新華三等廠商可以向客戶提供更加安全可靠的解決方案,為5G網(wǎng)絡(luò)上的加密流量保駕護(hù)航。下面筆者就為大家逐一進(jìn)行解讀。
安全計(jì)算:打開(kāi)一片新天地
首先聊聊筆者最熟悉的安全計(jì)算領(lǐng)域,多方安全計(jì)算絕大部分的應(yīng)用場(chǎng)景可以百萬(wàn)富翁問(wèn)題來(lái)表述,假如兩個(gè)百萬(wàn)富翁街頭邂逅,他們都想炫一下富,比比誰(shuí)更有錢(qián),但是出于隱私,都不想讓對(duì)方知道自己到底擁有多少財(cái)富,如何在不借助第三方的情況下,讓他們知道彼此之間到底誰(shuí)更有錢(qián)?
針對(duì)這個(gè)問(wèn)題,在上世紀(jì)80年代,姚期智院士提出了解決方案,并因此獲取了圖靈獎(jiǎng),從理論層面證明了多方可信計(jì)算問(wèn)題的可行性。
但在實(shí)踐層面多方安全計(jì)算依然困擾業(yè)界,尤其在金融行業(yè)更是如此,通常來(lái)說(shuō)金融機(jī)構(gòu)都有很多非常具有價(jià)值的數(shù)據(jù),但是怎么發(fā)揮數(shù)據(jù)的價(jià)值卻讓各大銀行犯了難,就算有宇宙行之稱的工商銀行,市場(chǎng)占有率也不到10%,單靠他們一家的數(shù)據(jù)訓(xùn)練不出特別好的模型,而把各大銀行的數(shù)據(jù)都拿出來(lái)共享,又會(huì)存在客戶隱私泄漏的風(fēng)險(xiǎn)。
如何在不讓其它參與者看到真實(shí)數(shù)據(jù)的情況下進(jìn)行計(jì)算,并把姚期智院士的解決方案落地,就成了一個(gè)難題。
在這個(gè)經(jīng)典問(wèn)題之下,目前只有少數(shù)幾個(gè)平臺(tái)能做到讓數(shù)據(jù)在不泄露的情況下聯(lián)合多方的數(shù)據(jù)進(jìn)行聯(lián)合計(jì)算、并得到明文計(jì)算結(jié)果,從而實(shí)現(xiàn)數(shù)據(jù)的所有權(quán)和數(shù)據(jù)使用權(quán)的分離,而且這還都是基于區(qū)塊鏈軟件技術(shù)機(jī)制保證安全可信。
而英特爾至強(qiáng)三代支持的SGX則從硬件角度用戶打消了相關(guān)顧慮,安全計(jì)算實(shí)際是給計(jì)算機(jī)加了一個(gè)安全密室,即使擁有最高權(quán)限的特權(quán)管理員也不能進(jìn)入安全密室,更無(wú)法在安全密室 前布放監(jiān)控。安全密室與外界的一切交互全部要經(jīng)過(guò)加密并進(jìn)行完整性校驗(yàn)。
幾年前,英特爾已經(jīng)實(shí)現(xiàn)SGX技術(shù),但當(dāng)時(shí)SGX能創(chuàng)建的內(nèi)存空間只有128M,而目前的AI機(jī)器學(xué)習(xí)模型動(dòng)轍要上百M(fèi),大的甚至要幾十上百個(gè)G,當(dāng)時(shí)的SGX根本放不下這樣的模型,無(wú)法在多方安全計(jì)算中使用。
不過(guò)這次Ice Lake-SP最高可以支持1T的安全空間,這種程度的提升將全面拓展SGX的應(yīng)用場(chǎng)景,比如騰訊就聯(lián)合北京微芯邊緣計(jì)算和區(qū)塊鏈研究院,將區(qū)塊鏈與SGX結(jié)合,保障數(shù)據(jù)安全性,做到最終數(shù)據(jù)可用不可見(jiàn),從而打破目前各機(jī)構(gòu)邊緣之間的數(shù)據(jù)孤島,發(fā)揮數(shù)據(jù)的最大價(jià)值。
AVX-512與VNNI雙劍合璧,AI算力大提升
本次Ice Lake-SP還新發(fā)布了AVX-512與VNNI兩種AI運(yùn)算加速技術(shù),本質(zhì)上它們都屬于SIMD技術(shù),而SIMD的由來(lái)要從芯片流水線技術(shù)聊起,CPU的震蕩頻率也被稱為主頻,是CPU處理性能的直接體現(xiàn),CPU的每個(gè)動(dòng)作都需要用晶體震蕩而觸發(fā)。
以加法ADD指令為例,想完成這個(gè)執(zhí)行指令需要取指、譯碼、取操作數(shù)、執(zhí)行以及取操作結(jié)果等若干步驟,每個(gè)步驟都需要一次晶體震蕩才能推進(jìn),因此在流水線技術(shù)出現(xiàn)之前執(zhí)行一條指令至少需要5到6次晶體震蕩周期才能完成。
針對(duì)這樣的問(wèn)題,芯片設(shè)計(jì)人員提出了參考工廠流水線機(jī)制的想法,因?yàn)槿≈?、譯碼這些模塊其實(shí)都是獨(dú)立的,完成可以在同一時(shí)刻并發(fā)執(zhí)行,那么只要將多條指令的相關(guān)步驟放在同一時(shí)刻執(zhí)行,比如指令1取指,指令2譯碼,指令3取操作數(shù)等等步驟都可以并發(fā)執(zhí)行。
以上圖這個(gè)流水線為例 ,在T5也就是第5個(gè)震蕩周期,指令流水線就建立成型,自此以后每個(gè)震蕩周期T,都可以取到一個(gè)指令的結(jié)果了,也就是說(shuō)平均每條指令就只需要一個(gè)震蕩周期就可以完成,這樣就能大幅提升CPU的運(yùn)算速度。
SIMD(Single Instruction Multiple Data),也就是單指令多數(shù)據(jù)流技術(shù),其實(shí)就是一種數(shù)據(jù)流水線的技術(shù),我們知道很多計(jì)算的操作數(shù)可能很長(zhǎng),其中最典型的就是雙精度數(shù)據(jù)的運(yùn)算,因?yàn)殡p精度數(shù)需要高低位的兩個(gè)操作數(shù)才能表示,因此在傳統(tǒng)的體系架構(gòu)下,雙精度運(yùn)算就要執(zhí)行低位相加、高位相加、進(jìn)位符處理三條CPU指令才能完成,為此英特爾提出了在一個(gè)指令周期內(nèi)處理多條數(shù)據(jù)的SIMD指令集MMX。
在此之前,想在個(gè)人PC上想播放圖像,都是需要安裝專門(mén)的硬件解壓卡的,不過(guò)解壓卡也像同年代的大哥大、BB機(jī)一樣,被新興的MMX技術(shù)瞬間干掉了。
近年來(lái)隨著AI計(jì)算的興起,在AI的神經(jīng)網(wǎng)絡(luò)世界中,現(xiàn)有的方法效率還是太低,以深度神經(jīng)網(wǎng)絡(luò)為例,神經(jīng)元可以抽象為對(duì)于輸入數(shù)據(jù)乘以權(quán)重以表示信號(hào)強(qiáng)度乘積加總,再由ReLU、Sigmoid等應(yīng)用激活函數(shù)調(diào)節(jié),本質(zhì)是將輸入數(shù)據(jù)與權(quán)重矩陣相乘,并輸入激活函數(shù),對(duì)于有三個(gè)輸入數(shù)據(jù)和兩個(gè)全連接神經(jīng)元的單層神經(jīng)網(wǎng)絡(luò)而言,需要把輸入和權(quán)重進(jìn)行六次相乘,并得出兩組乘積之和。
這實(shí)際上就是一個(gè)矩陣乘法運(yùn)算,因此AI運(yùn)算中的向量與矩陣的運(yùn)算才是基礎(chǔ)。而VR虛擬現(xiàn)實(shí)技術(shù)也比較類(lèi)似,它也需要不斷進(jìn)行矩陣的變換操作,所以說(shuō)矩陣操作才是AI、VR等領(lǐng)域的最基礎(chǔ)算式。
而矩陣的維度又不固定,這也是在AI運(yùn)算任務(wù)中GPU這種異構(gòu)計(jì)算方案大行其道的原因,不過(guò)英特爾這次又帶來(lái)了AVX512加VNNI的組合產(chǎn)品。
AVX512是最新一代的SIMD指令集,VNNI(Vector Neural Network Intruction)也就是矢量神經(jīng)網(wǎng)絡(luò)指令集,其實(shí)是一種支持變長(zhǎng)輸入的指令集。
我們可以把這項(xiàng)技術(shù)簡(jiǎn)單理解為在一個(gè)周期內(nèi)能將指令所需的所有操作數(shù)全部取到,而且讀操作數(shù)的個(gè)數(shù)還是可變長(zhǎng)的,這其實(shí)就已經(jīng)吸引了異構(gòu)計(jì)算的精華了。
從騰訊介紹的情況看,在3D人臉建模,也就是通過(guò)2D照片進(jìn)行3D建模的計(jì)算中,在VNNI技術(shù)加持下建模速度提升4.24倍以上,這意味著原有基于3D人臉建模比較慢的各種優(yōu)化、緩存、預(yù)處理都不需要了,在大部分場(chǎng)景當(dāng)中騰訊都能為游戲玩家提供所見(jiàn)即所得的3D頭像。
逆天的虛擬化和容器加速
另外一個(gè)值得注意的是,Ice Lake-SP的大家庭中有兩款專為云計(jì)算虛擬機(jī)和容器進(jìn)行優(yōu)化的型號(hào),其中P后綴:專為虛擬化層提供優(yōu)化,為虛擬機(jī)提供更高的頻率;V后綴:代表為SaaS優(yōu)化,針對(duì)高密度、低功耗容器環(huán)境,提高編排效率。
P后綴的8358P系列其能耗指標(biāo)TDP是240W,這對(duì)于風(fēng)冷服務(wù)器來(lái)說(shuō)壓力是不低的,不過(guò)這對(duì)于已經(jīng)大規(guī)模推廣液冷技術(shù),能夠給服務(wù)器“泡澡”的阿里云來(lái)講就不是什么問(wèn)題,因此我們看到阿里云是目前使用至強(qiáng)三代比較多的國(guó)內(nèi)云廠商之一。
阿里云與英特爾同步發(fā)布的第七代ECS云產(chǎn)品,搭載的就是這款I(lǐng)ce Lack,如果筆者所料不錯(cuò)的話,其小型號(hào)就應(yīng)該是我們剛剛提到的8358P系列的芯片。據(jù)阿里云的介紹,第七代ECS相較于上一代整體算力提升了40%。在MySQL、Redis、Nginx等互聯(lián)網(wǎng)典型場(chǎng)景中,第七代ECS最大性能提升了50%。
在Ice Lack的加持下,阿里云在容器部署密度最大可以提升到6倍,存儲(chǔ)云盤(pán)掛載密度最高提升1倍。第七代ECS還能在3分鐘內(nèi)交付50萬(wàn)核VCPU,單實(shí)例10秒可拉起,要知道筆者目前所親眼見(jiàn)到的最快VCPU交付也只能達(dá)到每分鐘萬(wàn)核的速度,這種3分鐘內(nèi)交付50萬(wàn)核的供給效率令人贊嘆。
傲騰-可能是影響最深遠(yuǎn)的革命性技術(shù)
還有一項(xiàng)名為傲騰非易失性存儲(chǔ)技術(shù)也特別值得關(guān)注,數(shù)據(jù)局部性原理是計(jì)算機(jī)發(fā)展歷史上最偉大的發(fā)現(xiàn)之一,也是程序員在編程過(guò)程中必須要考慮的規(guī)律,比如數(shù)據(jù)單元A1被訪問(wèn)了,那么A1的鄰居A0和A2被訪問(wèn)到的可能性也會(huì)極大的增加,因此CPU一般都會(huì)根據(jù)數(shù)據(jù)局部性原理進(jìn)行優(yōu)化,建立CPU到內(nèi)存的高速緩存機(jī)制。
當(dāng)數(shù)據(jù)單元A1被訪問(wèn)的同時(shí),將它的鄰居們調(diào)入高速緩存,而經(jīng)過(guò)大規(guī)模的實(shí)踐后人們發(fā)現(xiàn),高速介質(zhì)與低速介質(zhì)之間的速度差距在10倍左右時(shí),提速效果最為明顯。
因此我們看到英特爾的CPU往往分為三級(jí)高速緩存,彼此之間的速度差距大概在8到10倍之間,其中高速緩存中的第三級(jí)緩存又比內(nèi)存快10倍,這樣彼此之間各差10倍左右的緩存體系加速效果最好,這就像軍事行動(dòng)中,先鋒部隊(duì)既要率先行動(dòng),又不能與大部隊(duì)過(guò)于脫節(jié),才能圓滿完成任務(wù)。
而現(xiàn)在計(jì)算機(jī)架構(gòu)中,內(nèi)存比硬盤(pán)快了幾千倍,速度相差太多,用內(nèi)存介質(zhì)給硬盤(pán)進(jìn)行緩存效果往往不是很好。
英特爾傲騰技術(shù)是一個(gè)介于內(nèi)存以及存儲(chǔ)之間的新介質(zhì),為硬盤(pán)緩存體系提供了新方案,根據(jù)英特爾的介紹,傲騰200持久化內(nèi)存產(chǎn)品,單根將提供512G的容量,不但具備了很強(qiáng)的靈活性,也提供了高于內(nèi)存的容量,為加速數(shù)據(jù)提供了更好的性能。如果傲騰這個(gè)產(chǎn)品能提供比內(nèi)存更低的價(jià)格,又比硬盤(pán)更快的速度。那么在數(shù)據(jù)洪流來(lái)臨的時(shí)代,傲騰和至強(qiáng)的聯(lián)手,可能會(huì)給英特爾帶來(lái)一定優(yōu)勢(shì)。
概括來(lái)說(shuō),英特爾再次回到了極致技術(shù)道路上,最后用英特爾前任CEO安迪·葛洛夫的名言做結(jié)尾:“唯一不變就是變,只有偏執(zhí)狂才能生存”。