文/Origin
上周,智東西撰文介紹了英特爾的AI芯片Nevarna;緊接著,國內(nèi)地平線發(fā)布了AI芯片旭日與征程。“AI芯片”這個一年之前還處于無名狀態(tài)的詞,已經(jīng)成為一片紅海。
在自動駕駛領(lǐng)域,AI芯片其實并非新奇玩意。Mobileye的EyeQ系列芯片,就是較早應(yīng)用于自動駕駛的AI芯片之一。而在這個月早些時候,硅谷鋼鐵俠馬斯克,還宣布了特斯拉正在研發(fā)用于自動駕駛的AI芯片,回顧馬斯克對自動駕駛芯片的各種動作,我們發(fā)現(xiàn)近來各種跳票“不靠譜”的他,其實對技術(shù)發(fā)展的趨勢,遠比看上去更理解。
馬斯克對特斯拉自行研發(fā)自動駕駛芯片的布局,從兩年前就開始了。
一、從Mobileye到英偉達 特斯拉的自動駕駛焦慮癥
2014年,特斯拉找上Mobileye,用上了它家的新一代輔助駕駛芯片EyeQ3,來武裝自家的獨門絕技——自動駕駛系統(tǒng)Autopilot。
在這個時間點,EyeQ3無疑是最好的選擇。它的計算性能達到300Gflops(每秒3000億次浮點運算),并且內(nèi)部封裝了先進的ADAS算法,廣泛用于各家車廠的的ADAS系統(tǒng)中。
(圖中圈內(nèi)為EyeQ3)
但對特斯拉來說,Mobileye的EyeQ3成在這一點,敗也敗在這一點。去年特斯拉Model S撞卡車事件發(fā)生后,特斯拉與Mobileye開始分道揚鑣。當(dāng)時人們普遍認為是這場事故導(dǎo)致了雙方的信任破裂——對特斯拉來說,Mobileye并不保證自動駕駛足夠安全,而Mobileye也很冤,因為當(dāng)時還只定位于ADAS而已,特斯拉車主違規(guī)操作不僅害死了自己還讓Mobileye的名聲遭受了打擊。
不過,這件事雖然看上去是特斯拉與Mobileye蜜月結(jié)束的導(dǎo)火索,但背后的原因仍然是,特斯拉的計算力焦慮。 馬斯克一再宣稱要將全自動駕駛短期內(nèi)帶上特斯拉的Model系列,但從未實現(xiàn)過。一個重要的原因就是,Mobileye的EyeQ3這塊芯片,在計算力上并不能滿足需求,它只是為ADAS設(shè)計的。
而在2016年初,英偉達推出了Drive PX 2,理論計算性能最高達到10Tflops,比EyeQ3的性能來得要粗暴得多。并且,希望在自動駕駛領(lǐng)域建立起自家GPU計算生態(tài)的英偉達,給需求較大的特斯拉還開出了優(yōu)惠的價格。此時急于對自動駕駛功能進行升級的特斯拉,選擇再度回歸英偉達的擁抱,到也顯得合情合理。
以Model 3為例,其為自動駕駛功能和環(huán)視配置了8枚攝像頭與12枚超聲波雷達以及一枚毫米波雷達,大量的視頻圖像數(shù)據(jù)處理以及在其之上運行圖像識別算法,將會消耗巨量的計算資源,這顯然是算力只有300G的EyeQ3力所不及的。
相對于EyeQ3只是一塊ADAS芯片,Drive PX 2實質(zhì)上是一臺車載電腦,是更加完整的解決方案。
上圖為Drive PX 2 AutoCruise,下圖為Autochauffeur。
在配置了Drive PX 2過后,特斯拉在度過車禍?zhǔn)录囊魂嚨驼{(diào)過后,確實也對自動駕駛功能進行了更新。車東西不久前曾體驗過特斯拉新的AutoPilot,發(fā)現(xiàn)開啟后維持在一條車道上撒手不管也沒問題,不過特斯拉依然做了限制,時間太長系統(tǒng)會發(fā)出警報。
但Drive PX 2就能解決馬斯克的焦慮了嗎?顯然也不能。因為Drive PX 2實質(zhì)上有多個版本,其中算力較高的是Autochauffeur,算力較低的是Drive PX 2 AutoCruise,其上只搭載了一個Nvidia Parker Soc。
有國外車主拆解過特斯拉Model S上配置的Drive PX 2,它長這樣:
(英偉達為特斯拉定制的Drive PX 2車載電腦)
可以看到,特斯拉所用的Drive PX 2并沒有像Autochauffeur版本那樣使用了兩枚Soc+兩塊額外的GPU,而是只有一個Parker Soc+一塊獨立GPU。因此特斯阿拉所用的,更像是英偉達為其定制的AutoCruise版本。對于Drive PX 2,英偉達自身都明明白白地說過,要經(jīng)過多塊(多塊Autochauffeur)疊加,才能滿足L4級自動駕駛的算力需求。所以對于特斯拉上面的Drive PX 2,我們也可以明確其算力支持,不會超過L3水平。
并且,GPU為主的計算架構(gòu),一直有著功耗高的問題。為了給這塊Drive PX 2散熱,特斯拉使用了兩枚風(fēng)扇,也說明Drive PX 2的熱設(shè)計功耗,至少是在50-100W區(qū)間(英偉達硬件工程師曾向車東西表示,雙Soc+雙獨立Pascal顯卡的Autochauffeur功耗在150W)。
高成本、高功耗,算力還無法完全滿足需求,即使是號稱超級車載電腦的Drive PX 2,依舊有著這三個問題。而這些,對自動駕駛量產(chǎn)車來說,都是致命的。于是英偉達也拿出了下一代的Xavier作為應(yīng)對,功耗/性能比大幅升級,但它的裝車量產(chǎn)要到2019年。
馬斯克早已等不及了。
二、攬來大牛沉寂兩年? 只因在憋大招
馬斯克是個聰明人,不會吊死在一棵樹上,這一點,從特斯拉的計算芯片先使用Mobileye EyeQ3再轉(zhuǎn)入Drive PX 2就能看出來。
如果別人的樹上結(jié)不出果子,那么自己種一顆也不是不行。
2016年1月,特斯拉的硬件工程部門迎來了新的副總裁,一名做芯片架構(gòu)設(shè)計的工程師,名叫吉姆·凱勒,跟他一起來到特斯拉的,還有曾經(jīng)在他工作過的AMD、P.A Semi、蘋果公司中任職過的數(shù)十名芯片行業(yè)的人才。
(吉姆·凱勒)
跟馬斯克一樣,吉姆·凱勒也是個不甘寂寞的人。吉姆·凱勒早年間在AMD任職,深度參與了x86-64架構(gòu)的定制工作,讓曾經(jīng)只支持32位的X86升級到了64位。這也是吉姆·凱勒可能作出的最大貢獻——眼下各位內(nèi)置了英特爾、AMD處理器的64位PC,都有吉姆·凱勒的功勞。
吉姆凱勒也幫助AMD拿出了K7、K8架構(gòu),使得AMD在與英特爾的CPU競爭中用速龍壓制了奔騰(雖然并未維持多久)。
隨后,吉姆·凱勒從AMD離職,后來又加入半導(dǎo)體設(shè)計公司P.Asemi出任副總裁,專事設(shè)計低功耗處理器。2008年,蘋果收購了P.A。于是吉姆·凱勒又成為了蘋果A4、A5處理器的設(shè)計領(lǐng)頭人。
在兩家著名公司中領(lǐng)導(dǎo)芯片項目,并且最終產(chǎn)品造福了以億計的人們,吉姆·凱勒可以說是功成名就了,但他的故事還將繼續(xù)。
2012年,吉姆·凱勒重返A(chǔ)MD,出任芯片首席架構(gòu)師。此時的AMD已經(jīng)在CPU市場上被英特爾打得滿地找牙,“i3默秒全”早已成為圈內(nèi)的笑談。 吉姆在AMD待了三年,在2015年9月離職。他做了啥?幫AMD打造了新的處理器架構(gòu)“Zen”。今年,當(dāng)基于Zen架構(gòu)打造的AMD 銳龍?zhí)幚砥髡Q生時,當(dāng)年AMD速龍對決英特爾的輝煌再度上演,升級緩慢的英特爾大幅提高了下代處理器的性能作為應(yīng)對。
因此,吉姆·凱勒其實是充當(dāng)了AMD的“救世主”,而且是在兩年前救的,而且是救完就走,不留下一片云彩。
(AMD銳龍?zhí)幚砥?
起2016年加入特斯拉的消息表明,救完AMD過后,吉姆·凱勒又拯救陷入“自動駕駛謊言”中的特斯拉去了。
事實上,馬斯克在2015年就感受到了特斯拉可能會面臨的自動駕駛,當(dāng)年主動發(fā)推文,先行大力招募自動駕駛的軟件人才,而后對AMD、英特爾、蘋果等公司的硬件人才挖角行動也沒有停過。
獲得吉姆·凱勒過后,特斯拉與芯片制造商/代工商的接觸開始變多。去年9月,消息一度傳出,三星將幫助特斯拉打造車載芯片,后來消息不了了之。今年早些時候,CNBC曾報道AMD將與特斯拉合作打造芯片,聽上去可信度很高——吉姆·凱勒來自AMD,而特斯拉方面也曾經(jīng)表示,他們在自動駕駛芯片上的選擇很靈活。
今年9月,AMD的拆分子公司、芯片代工方格羅方德在對外演示中無意走漏風(fēng)聲,稱正在與特斯拉合作。后來格羅方德辟謠稱與特斯拉并沒有直接合作(也等于間接指出特斯拉在于AMD合作)。一時間特斯拉自研芯片的消息再度沸沸揚揚,AMD還因為這個利好消息股價小漲一波。車東西也對此事進行了深度分析(詳見文章:自動駕駛芯片戰(zhàn)爭爆發(fā))
直到12月,面對不斷下行的股價壓力,馬斯克把這個消息當(dāng)做利好放了出來。
如果從吉姆·凱勒加入開始算起,到這個時候,特斯拉的自研芯片計劃其實已經(jīng)潛行了快兩年。兩年時間,對外零成果,這完全不符合特斯拉的風(fēng)格。為何一向求快的特斯拉,此時卻穩(wěn)了起來?
因為特斯拉要研發(fā)的,正是面向自動駕駛的ASIC。(馬斯克原話是“developing specialized AI hardware”)
ASIC,Application Specific Integrated Circuit,專用集成電路,意思就是面向?qū)iT計算用途打造的芯片。其特點是在某一特定領(lǐng)域的計算上能夠以更低的功耗獲得更高的性能。 另一個特點則是,研發(fā)周期長,時間通常超過一年。
對于特斯拉來說,在應(yīng)用了高功耗的Drive PX 2仍然無法實現(xiàn)高級自動駕駛過后,研發(fā)出自己掌握的、2-3年的時間是值得等待的。特別是,當(dāng)這個芯片項目是由吉姆·凱勒主導(dǎo)時。
吉姆·凱勒在輾轉(zhuǎn)AMD與蘋果的過程中,曾經(jīng)開發(fā)過基于MIPS架構(gòu)的網(wǎng)絡(luò)芯片,還開發(fā)過基于ARM V8架構(gòu)的服務(wù)器芯片(MIPS、ARM V8都是RSIC精簡指令集架構(gòu),一般來說在功耗上具有優(yōu)勢) 擁有了豐富的低功耗芯片設(shè)計經(jīng)驗,結(jié)合其此前在高性能芯片上的設(shè)計能力,他為特斯拉帶來的將是功耗/性能表現(xiàn)更加優(yōu)越、高度適配自動駕駛軟件算法的專用芯片。
在馬斯克放出特斯拉將自研芯片消息時,他如此形容這款芯片的優(yōu)勢——“this can give 10x power at a tenth the cost”。什么意思?能以十分之一的功耗,實現(xiàn)十倍的性能。吉姆·凱勒也稱,現(xiàn)在的AI技術(shù)在進行應(yīng)用時,功耗是一個常被忽視的元素。
從特斯拉眾人的一席話中可以看出,他們研發(fā)的這款自動駕駛芯片,將在功耗/性能比上下更多功夫。
特斯拉芯片最大可能的代工方格羅方德,也擁有專門面向低功耗的芯片工藝——FD-SOI。近年格羅方德剛剛實現(xiàn)了FD-SOI的22納米制程升級,宣稱功耗比28nm降低了70%,該工藝相較于我們較為熟悉的FinFET而言,更適合需要低功耗芯片的移動計算等場景。
當(dāng)然,低功耗并不代表低性能。以特斯拉的舊愛Mobileye為例,其明年將要量產(chǎn)的EyeQ4系列芯片,采用MIPS架構(gòu)搭建,能夠以3W的功耗,實現(xiàn)2.5Tflops的計算性能。
而同時玩過X86、MIPS、ARM v8架構(gòu)的吉姆·凱勒,玩芯片性能跑得上得去,做功耗優(yōu)化也降得下來。
三、特斯拉自研背后 自動駕駛芯片正在轉(zhuǎn)向
特斯拉自研自動駕駛芯片,其實反映了隨著自動駕駛行業(yè)成長、需求明確,其計算的需求由通用轉(zhuǎn)向了專用,運行的由訓(xùn)練走向了落地(Inference,推斷),隨著自動駕駛向量產(chǎn)推進,自動駕駛系統(tǒng)所需要的芯片,由原本不計代價、不懼高功耗追求絕對算力的GPU,走向低成本(前提是大規(guī)模量產(chǎn)攤薄成本)、低功耗、高性能的ASIC。
曾有整車廠出身的自動駕駛創(chuàng)業(yè)者向車東西吐槽,業(yè)內(nèi)許多創(chuàng)業(yè)者完全沒有考慮過自動駕駛的量產(chǎn)問題,其中一個顯著表現(xiàn)就是大量堆砌高功耗的計算核心,“將數(shù)塊GPU拼在一起”,放在車輛的后備箱中。而現(xiàn)在對于要量產(chǎn)的自動駕駛車來說,其計算核心必須是嵌入式的,不僅要滿足計算性能,同時要滿足低功耗需求,同時成本要可接受,此時ASIC是看上去最可行的方案。
盡管ASIC開發(fā)的周期不短,需要的資金也十分驚人(制程較先進時僅是單次流片可能就需要數(shù)百萬美元),但一旦投入量產(chǎn)、規(guī)模鋪開,芯片產(chǎn)業(yè)的邊際效用會立即發(fā)揮,將單枚芯片成本壓低。
對于特斯拉來說,盡管自研自動駕駛芯片的風(fēng)險巨大,初始成本高昂,但一旦投入使用,帶來的各種收益將是顯著的。除了降成本、降功耗,另一點就是頻頻被提及的自主性:全世界的科技企業(yè)都從蘋果的成功中學(xué)習(xí)到一點——軟硬件一體的威力。
自研芯片的特斯拉,不僅能夠為Autopilot提供定制化的硬件支持,同時也可以將大量自動駕駛算法直接封裝到芯片內(nèi)。構(gòu)建起這樣的能力,將成為特斯拉在自動駕駛競賽中的核心優(yōu)勢。
除了特斯拉之外,還有其他公司已經(jīng)走上了這條道路。
上周,國內(nèi)自動駕駛芯片初創(chuàng)公司地平線,推出了兩款A(yù)I芯片,其中一枚,正是面向自動駕駛的ASIC“征程”。在參數(shù)上,征程能夠以1.5W的功耗,實現(xiàn)1Tflops的算力,每秒處理30幀4K視頻,對圖像中超過200個物體進行識別。
性能功耗比可以直接反映出在自動駕駛領(lǐng)域,ASIC面對GPU時所展現(xiàn)出來的優(yōu)勢——征程每瓦特功耗實現(xiàn)了0.666T的計算力,而英偉達此前推出的Drive PX 2 ,以150W的高功耗,實現(xiàn)的是不到24T的算力。若如此計算,“征程”的性能功耗比達到Drive PX 2的3倍還多。
并且,由于ASIC不是GPU類的通用計算,內(nèi)部直接封裝了算法,數(shù)據(jù)交換只是底層I/O,因此其計算的時延也會比GPU更低。也是因為這個原因,盡管“征程”這枚ASIC在絕對算力上要比Drive PX 2 Autochauffeur 低上不少,但地平線也稱其能夠滿足L3的計算需求。
而有吉姆·凱勒坐鎮(zhèn)、財力也更雄厚的特斯拉,在自動駕駛ASIC上做得更好,只是必然。
當(dāng)然,與特斯拉分手的英偉達自己也非常清楚GPU路徑的優(yōu)勢與不足,在下一代的計算核心Xaiver中,將采用CPU+GPU+ASIC的異構(gòu)計算方案,Xiaver在提供給不同的合作伙伴時可以采用定制方案。英偉達未選擇轉(zhuǎn)入ASIC的路徑,是因為畢竟還要做生態(tài),拋棄GPU就沒法玩了。不過生態(tài)也是英偉達最好的武器,除了底層的cuDNN和Tensor RT等,英偉達還提供在云端強大的訓(xùn)練能力,以及大量的自動駕駛通用算法,包括提供車輛、行人、紅綠燈識別能力和可行駛區(qū)域檢測能力的DriveWorks。這極大地降低了自動駕駛開發(fā)的上手難度,對于不像特斯拉那樣追求極致的后來者們,生態(tài)完整的英偉達仍然是良好選擇。
結(jié)語:自動駕駛芯片或成特斯拉下一輪救星
盡管馬斯克聲稱,特斯拉正在打造的AI專用芯片“將是世界上最好的AI芯片”,但并未透露它什么時候會誕生。不過,馬斯克已經(jīng)再一次“夸下海口”,要在2019年實現(xiàn)完全的自動駕駛。有吉姆·凱勒這樣的大神助陣,馬斯克這一次的承諾跳票可能性看上去小了那么一丟丟。不過,按照人們對特斯拉的期望值來看,只要它能夠?qū)崿F(xiàn)高度自動駕駛,即使稍微晚來了幾年,也沒有關(guān)系。
只是問題在于,無論是地平線這樣的初創(chuàng)公司,還是Mobileye這樣的老牌,都在自動駕駛ASIC這條道路上越走越遠。在短暫引領(lǐng)自動駕駛(實質(zhì)仍是輔助駕駛)風(fēng)騷過后,特斯拉的優(yōu)勢已經(jīng)不再明顯。
但馬斯克常常能化不可能為可能,無論是造出一輛續(xù)航超過500公里的電動車,還是實現(xiàn)運載火箭的回收。這一次,有芯片大神吉姆·凱勒的坐鎮(zhèn),特斯拉在自動駕駛芯片上可能實現(xiàn)的成就,不可小覷。一旦問世,它或許就會成為“不思進取”的AutoPilot的救星。
在特斯拉的不斷跳票與被拯救中,自動駕駛正在悄悄走向量產(chǎn)。