阿里技術(shù)保障部,外部聽說的人并不多,然而這個團(tuán)隊(duì)在包括阿里云、天貓、淘寶、支付寶/小貸在內(nèi)的各項(xiàng)業(yè)務(wù),以及近幾年雙十一、飛天5K等諸多奇跡的背后,這個團(tuán)隊(duì)都發(fā)揮了關(guān)鍵性的基礎(chǔ)作用。然而,對于劉振飛的團(tuán)隊(duì)以及與阿里云的淵源,還有許多不為人知的故事。
阿里集團(tuán)上市前夕公布的最新27名合伙人名單中,出現(xiàn)了公司副總裁、技術(shù)保障部負(fù)責(zé)人劉振飛的名字。這當(dāng)然既是對他個人的認(rèn)可,也是對阿里技術(shù)保障部這一幕后英雄團(tuán)隊(duì)貢獻(xiàn)的肯定。阿里集團(tuán)包括阿里云、天貓、淘寶、支付寶、小貸在內(nèi)的各項(xiàng)業(yè)務(wù),以及近幾年雙十一、飛天5K等諸多奇跡的背后,這個團(tuán)隊(duì)都發(fā)揮了關(guān)鍵性的基礎(chǔ)支撐作用。
然而,不僅外界聽說過阿里技術(shù)保障部的人不多,就連我雖然與劉振飛已經(jīng)相識多年,對他們團(tuán)隊(duì)的具體情況以及與阿里云的淵源也只是一知半解。近日我終于找到一個機(jī)會,在杭州和他好好聊了一上午。
阿里技術(shù)保障部的故事,要從2009年8月說起。今天的用戶可能難以想象,當(dāng)時淘寶網(wǎng)非常不穩(wěn)定,動不動就訪問不了,或者要停機(jī)維護(hù),搞得領(lǐng)導(dǎo)們很生氣很無奈。以至于當(dāng)時淘寶的總裁陸兆禧感慨,淘寶2008年全年成交額是999.6億,要是少宕幾次機(jī),就過千億了啊。劉振飛說:“你想,當(dāng)一個公司的CEO天天在琢磨這種事,就說明技術(shù)平臺上真是出大問題了。”9月25日,為了解決淘寶系統(tǒng)的問題,成立淘寶技術(shù)保障部,將阿里媽媽和淘寶的運(yùn)維、數(shù)據(jù)庫等工作和團(tuán)隊(duì)合并,當(dāng)時正在北京負(fù)責(zé)淘寶廣告(阿里媽媽)技術(shù)團(tuán)隊(duì)的劉振飛被領(lǐng)導(dǎo)點(diǎn)將,負(fù)責(zé)組建這支團(tuán)隊(duì)。
劉振飛搬到杭州真正進(jìn)入角色,已經(jīng)到了2009年的11月2日,此后很長時間內(nèi),他和團(tuán)隊(duì)都處于救火隊(duì)的狀態(tài),幾乎每天大概都要處理幾十起緊急情況。但更大的挑戰(zhàn)卻是阿里媽媽和淘寶兩個運(yùn)維團(tuán)隊(duì)的合并并不那么順利。“你要知道是兩套體系,兩套人合起來,人的觀念不一樣,大家經(jīng)歷不一樣,習(xí)慣不一樣,工具不一樣,什么都不一樣。合起來真是非常痛苦的過程。”劉振飛甚至夸張地說這一經(jīng)歷給自己留下了不小的心理陰影。
而每年的雙十一對劉振飛團(tuán)隊(duì)的成長幫助巨大。2009年第一個雙十一銷售額只有5000萬,對系統(tǒng)影響不大,連劉振飛也是在活動要結(jié)束前半小時收到淘寶商城負(fù)責(zé)人逍遙子(張勇)的郵件才知道的。一年后的第二個雙十一卻是淘寶技術(shù)保障部經(jīng)歷的一次大挑戰(zhàn)。由于業(yè)務(wù)部門事先估算的成交量2.5億偏低(實(shí)際達(dá)到了9.36億),系統(tǒng)準(zhǔn)備不足,整個活動期間都如履薄冰,走在崩潰的邊緣,曾經(jīng)一度就要實(shí)施降級方案,限制部分寶貝圖片的顯示了。所幸,最后系統(tǒng)經(jīng)受住了考驗(yàn)。2011年劉振飛決定不再盲從業(yè)務(wù)部門的預(yù)估,而是從技術(shù)角度做足準(zhǔn)備。這一年還創(chuàng)立了由各部門技術(shù)骨干組成技術(shù)保障總指揮部、預(yù)先大規(guī)模壓力測試、大量演習(xí)和詳細(xì)的應(yīng)急預(yù)案等流程和機(jī)制,很好地保證了總銷售額從不到10億到52億、191億和362億的逐年飛躍。
2011年還有兩件事兒至關(guān)重要。一是6月淘寶一分為四,除淘寶網(wǎng)、淘寶商城(后改名天貓)、一淘三個業(yè)務(wù)部門外,還有一個不太為外界注意到的阿里技術(shù)與公共服務(wù)共享平臺。對此,劉振飛分析,當(dāng)時的拆分可能是馬云和王堅(jiān)等集團(tuán)高層想將公司技術(shù)底層統(tǒng)一起來,貫徹One Company戰(zhàn)略的開始。后來,這個共享平臺的技術(shù)部分改名為阿里集團(tuán)技術(shù)保障部。
另一件事是劉振飛團(tuán)隊(duì)與阿里云運(yùn)維的合并。由于上次合并的痛苦回憶,加上當(dāng)時公司內(nèi)外對阿里云有很多爭議,劉振飛對這事起初并不積極,拖過了雙十一之后,又有雙十二,眼見著就往春節(jié)后拖了??墒前⒗镌频倪\(yùn)維負(fù)責(zé)人道夫很主動,而且提出了很具體的方案,他的那句“這方案你聽完以后,你愛怎么合怎么合”感動了劉振飛。雙方很快達(dá)成了一致,合并總體也非常順利。技術(shù)保障部發(fā)展到今天,涵蓋業(yè)務(wù)運(yùn)營(包括合作創(chuàng)新、標(biāo)準(zhǔn)化和知識產(chǎn)權(quán)),性能與容量(架構(gòu)、性能、容量、優(yōu)化),系統(tǒng)研發(fā)(網(wǎng)絡(luò)平臺、網(wǎng)絡(luò)產(chǎn)品、SDN、服務(wù)器研發(fā)、無線技術(shù)、數(shù)據(jù)引擎、算法平臺等),供應(yīng)鏈管理(ODM管理),數(shù)據(jù)庫(MySQL、OceanBase、SQL Server和RDS),平臺與工具(工具、流程、監(jiān)控、自動化、配置、研發(fā)協(xié)同平臺、硬件管理平臺),平安生產(chǎn),系統(tǒng)運(yùn)營和云PE等多個方面,猛將如云,而且同時具有運(yùn)維的經(jīng)驗(yàn)和自主研發(fā)的實(shí)力。
劉振飛還透露了一個鮮為人知的細(xì)節(jié),因?yàn)閷Π⒗镌菩睦餂]底,在接手前他私下直接問過馬云本人對阿里云到底是什么態(tài)度,我是全力去干,還是說應(yīng)付應(yīng)付就完了。當(dāng)時馬云是這么回答的:
在王堅(jiān)加入阿里之前,我跟教授(指曾鳴)討論公司的未來,覺得云計(jì)算和大數(shù)據(jù)代表未來,對國家、民族、社會的發(fā)展有長遠(yuǎn)的意義,所以我們要干,這是第一點(diǎn)。但是怎么做云計(jì)算大數(shù)據(jù)?我們誰也不知道?,F(xiàn)在來了個人叫王堅(jiān),他說我知道怎么做,為什么不支持呢?這是第二點(diǎn)。第三點(diǎn),即使萬一做失敗了,那也沒關(guān)系,咱們的人倒下70 % ,還有30 % 活著,咱們活下來的人繼續(xù)打掃戰(zhàn)場,換個方向繼續(xù)干,總要把它做出來。
有了老大的這種明確表態(tài),劉振飛心里清楚該怎么做了。“云計(jì)算是公司戰(zhàn)略,什么叫戰(zhàn)略?戰(zhàn)略就是公司一定要干,理解了執(zhí)行,不理解你也要執(zhí)行。”
接下來2012年的頭幾個月,他連續(xù)得罪了兩個人。一個是負(fù)責(zé)阿里金融的孫權(quán)(胡曉明)。他們是阿里云的第一個重要內(nèi)部客戶。但是由于阿里云的產(chǎn)品當(dāng)時仍不太成熟,問題很多,孫權(quán)找到劉振飛,表示不想用阿里云了,要改用淘寶的體系,讓技術(shù)保障部來支持。劉振飛本著云計(jì)算是公司戰(zhàn)略的精神,拒絕了這一要求。同時,阿里云和技術(shù)保障部專門抽調(diào)技術(shù)骨干組成團(tuán)隊(duì),駐扎到濱江辦公區(qū)為阿里金融提供貼身服務(wù)。最終獲得了他們的認(rèn)可。
下一個被得罪的,是時任淘寶副總裁的菲青(王文彬)。他為了上聚石塔項(xiàng)目(電商開放平臺),來找劉振飛談技術(shù)保障方面的事情,也是不愿意用阿里云,要用淘寶技術(shù)體系,同樣吃了閉門羹。“我當(dāng)時說如果用淘寶體系的話你自己找人去玩兒,要用云計(jì)算,我全力頂你。我就是這樣非常粗暴地利用手中職權(quán)強(qiáng)迫大家往戰(zhàn)略方向上去走。”劉振飛笑著說。
2012年的雙十一,阿里云支撐聚石塔完成全部訂單20 % 的處理,成為云計(jì)算的一大亮點(diǎn)。集團(tuán)外部也有CCTV5的網(wǎng)上直播、浙江臺風(fēng)預(yù)警系統(tǒng)等出色的案例。
但阿里云最終真正證明自己,還是2013年的事情。除了依靠阿里云迅速成長為基金業(yè)土豪的余額寶之外,飛天5K項(xiàng)目具有決定性的意義。
事后總結(jié),飛天5K這個項(xiàng)目并非人為規(guī)劃而是逐步發(fā)展出來的,其中有幾個歷史節(jié)點(diǎn)很關(guān)鍵。第一個關(guān)鍵點(diǎn)就是去IOE,雖然去IOE最開始是王堅(jiān)提出來的,但與云計(jì)算沒有直接關(guān)系,可是做著做著就發(fā)現(xiàn)殊途同歸了。去IOE內(nèi)部的爭議也非常大,但做到最后,大家發(fā)現(xiàn)這是一個有利于國計(jì)民生的大事。第二個關(guān)鍵點(diǎn)是2010年我們自己研發(fā)的海量關(guān)系數(shù)據(jù)庫OceanBase立項(xiàng),現(xiàn)在已經(jīng)成為整個公司的基礎(chǔ)數(shù)據(jù)庫,包括支付寶交易和賬務(wù)系統(tǒng)所用的Oracle,很多應(yīng)用所用的MySQL,最終都會轉(zhuǎn)到OceanBase上。第三個關(guān)鍵點(diǎn)是2010年的雙十一,技術(shù)保障部的組織和雙十一的保障流程建立起來了。然后的關(guān)鍵節(jié)點(diǎn)就是飛天5K項(xiàng)目,之后內(nèi)部通過登月計(jì)劃,正在爭先恐后地將原有的數(shù)據(jù)處理平臺全部遷移到基于飛天5K的ODPS上。最先動手的登月一號是支付寶,已經(jīng)完成了。接下來的關(guān)鍵點(diǎn)還有今年ODPS的對外發(fā)布,外部客戶現(xiàn)在所用的基礎(chǔ)設(shè)施和內(nèi)部支付寶、淘寶所用的,已經(jīng)是完全一樣的了。
劉振飛說,更長遠(yuǎn)地來看,5K這個項(xiàng)目將在阿里巴巴歷史上留下很重的一筆。在此之后,阿里技術(shù)團(tuán)隊(duì)內(nèi)部停止了爭論,原來做兩攤事兒不時競爭的人,兵合一處,并肩作戰(zhàn)。與之對應(yīng)的,是阿里云的口碑越來越好,網(wǎng)上能見到的吐槽也越來越少。馬云后來說過一句話,他說飛天、ODPS和云OS這三個東西,是我們阿里巴巴要重心打造的重武器或者核武器,這是我們的技術(shù)的核心,一定要搞好。
劉振飛透露,最近淘寶系的負(fù)責(zé)人也向他表示,已經(jīng)在認(rèn)真考慮核心系統(tǒng)上云的問題了。內(nèi)部對云計(jì)算達(dá)成共識之后,劉振飛和阿里技術(shù)保障部基于幾年的實(shí)戰(zhàn)經(jīng)驗(yàn),對云計(jì)算本身和自己要承擔(dān)的責(zé)任與面臨的挑戰(zhàn),做了全面思考。關(guān)于他們的思考結(jié)果和計(jì)劃,我們留給下一期。
劉振飛其人
劉振飛這個名字,可能外界并不太熟悉。其實(shí),對于技術(shù)圈,尤其是《程序員》雜志的老讀者和CSDN網(wǎng)站的資深網(wǎng)友來說,劉振飛并不陌生。他是河南魯山人,卻有點(diǎn)山東大漢的意思,個子很高,性格直率。1996年獲得北京大學(xué)碩士學(xué)位,C++程序員出身,曾在微軟Office組任程序經(jīng)理。早在2004年,他就因BugFree這款開源軟件受到廣泛關(guān)注。2005年《程序員》雜志從第1期開始連續(xù)三期刊出了對他的訪談《Bug管理的經(jīng)驗(yàn)與實(shí)踐》,第8、9期又連載了他撰寫的《網(wǎng)站項(xiàng)目成功管理實(shí)踐》。這一系列細(xì)論軟件和互聯(lián)網(wǎng)研發(fā)管理經(jīng)驗(yàn)的文章廣為流傳,產(chǎn)生了很大影響。2007年和2008年兩屆SD 2.0大會,劉振飛又成為演講嘉賓,這時他已經(jīng)成為淘寶廣告團(tuán)隊(duì)的技術(shù)總監(jiān)。2009年,他受命組建淘寶技術(shù)保障部,后發(fā)展為整個阿里集團(tuán)的基礎(chǔ)技術(shù)支撐部門。2014年成為阿里27名合伙人之一。