ITBear旗下自媒體矩陣:

阿里技術(shù)保障部:阿里云的幕后英雄

   時(shí)間:2014-10-13 10:37:35 來(lái)源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評(píng)論無(wú)障礙通道

阿里技術(shù)保障部,外部聽說(shuō)的人并不多,然而這個(gè)團(tuán)隊(duì)在包括阿里云、天貓、淘寶、支付寶/小貸在內(nèi)的各項(xiàng)業(yè)務(wù),以及近幾年雙十一、飛天5K等諸多奇跡的背后,這個(gè)團(tuán)隊(duì)都發(fā)揮了關(guān)鍵性的基礎(chǔ)作用。然而,對(duì)于劉振飛的團(tuán)隊(duì)以及與阿里云的淵源,還有許多不為人知的故事。

阿里集團(tuán)上市前夕公布的最新27名合伙人名單中,出現(xiàn)了公司副總裁、技術(shù)保障部負(fù)責(zé)人劉振飛的名字。這當(dāng)然既是對(duì)他個(gè)人的認(rèn)可,也是對(duì)阿里技術(shù)保障部這一幕后英雄團(tuán)隊(duì)貢獻(xiàn)的肯定。阿里集團(tuán)包括阿里云、天貓、淘寶、支付寶、小貸在內(nèi)的各項(xiàng)業(yè)務(wù),以及近幾年雙十一、飛天5K等諸多奇跡的背后,這個(gè)團(tuán)隊(duì)都發(fā)揮了關(guān)鍵性的基礎(chǔ)支撐作用。

然而,不僅外界聽說(shuō)過(guò)阿里技術(shù)保障部的人不多,就連我雖然與劉振飛已經(jīng)相識(shí)多年,對(duì)他們團(tuán)隊(duì)的具體情況以及與阿里云的淵源也只是一知半解。近日我終于找到一個(gè)機(jī)會(huì),在杭州和他好好聊了一上午。

阿里技術(shù)保障部的故事,要從2009年8月說(shuō)起。今天的用戶可能難以想象,當(dāng)時(shí)淘寶網(wǎng)非常不穩(wěn)定,動(dòng)不動(dòng)就訪問(wèn)不了,或者要停機(jī)維護(hù),搞得領(lǐng)導(dǎo)們很生氣很無(wú)奈。以至于當(dāng)時(shí)淘寶的總裁陸兆禧感慨,淘寶2008年全年成交額是999.6億,要是少宕幾次機(jī),就過(guò)千億了啊。劉振飛說(shuō):“你想,當(dāng)一個(gè)公司的CEO天天在琢磨這種事,就說(shuō)明技術(shù)平臺(tái)上真是出大問(wèn)題了。”9月25日,為了解決淘寶系統(tǒng)的問(wèn)題,成立淘寶技術(shù)保障部,將阿里媽媽和淘寶的運(yùn)維、數(shù)據(jù)庫(kù)等工作和團(tuán)隊(duì)合并,當(dāng)時(shí)正在北京負(fù)責(zé)淘寶廣告(阿里媽媽)技術(shù)團(tuán)隊(duì)的劉振飛被領(lǐng)導(dǎo)點(diǎn)將,負(fù)責(zé)組建這支團(tuán)隊(duì)。

劉振飛搬到杭州真正進(jìn)入角色,已經(jīng)到了2009年的11月2日,此后很長(zhǎng)時(shí)間內(nèi),他和團(tuán)隊(duì)都處于救火隊(duì)的狀態(tài),幾乎每天大概都要處理幾十起緊急情況。但更大的挑戰(zhàn)卻是阿里媽媽和淘寶兩個(gè)運(yùn)維團(tuán)隊(duì)的合并并不那么順利。“你要知道是兩套體系,兩套人合起來(lái),人的觀念不一樣,大家經(jīng)歷不一樣,習(xí)慣不一樣,工具不一樣,什么都不一樣。合起來(lái)真是非常痛苦的過(guò)程。”劉振飛甚至夸張地說(shuō)這一經(jīng)歷給自己留下了不小的心理陰影。

而每年的雙十一對(duì)劉振飛團(tuán)隊(duì)的成長(zhǎng)幫助巨大。2009年第一個(gè)雙十一銷售額只有5000萬(wàn),對(duì)系統(tǒng)影響不大,連劉振飛也是在活動(dòng)要結(jié)束前半小時(shí)收到淘寶商城負(fù)責(zé)人逍遙子(張勇)的郵件才知道的。一年后的第二個(gè)雙十一卻是淘寶技術(shù)保障部經(jīng)歷的一次大挑戰(zhàn)。由于業(yè)務(wù)部門事先估算的成交量2.5億偏低(實(shí)際達(dá)到了9.36億),系統(tǒng)準(zhǔn)備不足,整個(gè)活動(dòng)期間都如履薄冰,走在崩潰的邊緣,曾經(jīng)一度就要實(shí)施降級(jí)方案,限制部分寶貝圖片的顯示了。所幸,最后系統(tǒng)經(jīng)受住了考驗(yàn)。2011年劉振飛決定不再盲從業(yè)務(wù)部門的預(yù)估,而是從技術(shù)角度做足準(zhǔn)備。這一年還創(chuàng)立了由各部門技術(shù)骨干組成技術(shù)保障總指揮部、預(yù)先大規(guī)模壓力測(cè)試、大量演習(xí)和詳細(xì)的應(yīng)急預(yù)案等流程和機(jī)制,很好地保證了總銷售額從不到10億到52億、191億和362億的逐年飛躍。

2011年還有兩件事兒至關(guān)重要。一是6月淘寶一分為四,除淘寶網(wǎng)、淘寶商城(后改名天貓)、一淘三個(gè)業(yè)務(wù)部門外,還有一個(gè)不太為外界注意到的阿里技術(shù)與公共服務(wù)共享平臺(tái)。對(duì)此,劉振飛分析,當(dāng)時(shí)的拆分可能是馬云和王堅(jiān)等集團(tuán)高層想將公司技術(shù)底層統(tǒng)一起來(lái),貫徹One Company戰(zhàn)略的開始。后來(lái),這個(gè)共享平臺(tái)的技術(shù)部分改名為阿里集團(tuán)技術(shù)保障部。

另一件事是劉振飛團(tuán)隊(duì)與阿里云運(yùn)維的合并。由于上次合并的痛苦回憶,加上當(dāng)時(shí)公司內(nèi)外對(duì)阿里云有很多爭(zhēng)議,劉振飛對(duì)這事起初并不積極,拖過(guò)了雙十一之后,又有雙十二,眼見著就往春節(jié)后拖了??墒前⒗镌频倪\(yùn)維負(fù)責(zé)人道夫很主動(dòng),而且提出了很具體的方案,他的那句“這方案你聽完以后,你愛(ài)怎么合怎么合”感動(dòng)了劉振飛。雙方很快達(dá)成了一致,合并總體也非常順利。技術(shù)保障部發(fā)展到今天,涵蓋業(yè)務(wù)運(yùn)營(yíng)(包括合作創(chuàng)新、標(biāo)準(zhǔn)化和知識(shí)產(chǎn)權(quán)),性能與容量(架構(gòu)、性能、容量、優(yōu)化),系統(tǒng)研發(fā)(網(wǎng)絡(luò)平臺(tái)、網(wǎng)絡(luò)產(chǎn)品、SDN、服務(wù)器研發(fā)、無(wú)線技術(shù)、數(shù)據(jù)引擎、算法平臺(tái)等),供應(yīng)鏈管理(ODM管理),數(shù)據(jù)庫(kù)(MySQL、OceanBase、SQL Server和RDS),平臺(tái)與工具(工具、流程、監(jiān)控、自動(dòng)化、配置、研發(fā)協(xié)同平臺(tái)、硬件管理平臺(tái)),平安生產(chǎn),系統(tǒng)運(yùn)營(yíng)和云PE等多個(gè)方面,猛將如云,而且同時(shí)具有運(yùn)維的經(jīng)驗(yàn)和自主研發(fā)的實(shí)力。

劉振飛還透露了一個(gè)鮮為人知的細(xì)節(jié),因?yàn)閷?duì)阿里云心里沒(méi)底,在接手前他私下直接問(wèn)過(guò)馬云本人對(duì)阿里云到底是什么態(tài)度,我是全力去干,還是說(shuō)應(yīng)付應(yīng)付就完了。當(dāng)時(shí)馬云是這么回答的:

在王堅(jiān)加入阿里之前,我跟教授(指曾鳴)討論公司的未來(lái),覺(jué)得云計(jì)算和大數(shù)據(jù)代表未來(lái),對(duì)國(guó)家、民族、社會(huì)的發(fā)展有長(zhǎng)遠(yuǎn)的意義,所以我們要干,這是第一點(diǎn)。但是怎么做云計(jì)算大數(shù)據(jù)?我們誰(shuí)也不知道?,F(xiàn)在來(lái)了個(gè)人叫王堅(jiān),他說(shuō)我知道怎么做,為什么不支持呢?這是第二點(diǎn)。第三點(diǎn),即使萬(wàn)一做失敗了,那也沒(méi)關(guān)系,咱們的人倒下70 % ,還有30 % 活著,咱們活下來(lái)的人繼續(xù)打掃戰(zhàn)場(chǎng),換個(gè)方向繼續(xù)干,總要把它做出來(lái)。

有了老大的這種明確表態(tài),劉振飛心里清楚該怎么做了。“云計(jì)算是公司戰(zhàn)略,什么叫戰(zhàn)略?戰(zhàn)略就是公司一定要干,理解了執(zhí)行,不理解你也要執(zhí)行。”

接下來(lái)2012年的頭幾個(gè)月,他連續(xù)得罪了兩個(gè)人。一個(gè)是負(fù)責(zé)阿里金融的孫權(quán)(胡曉明)。他們是阿里云的第一個(gè)重要內(nèi)部客戶。但是由于阿里云的產(chǎn)品當(dāng)時(shí)仍不太成熟,問(wèn)題很多,孫權(quán)找到劉振飛,表示不想用阿里云了,要改用淘寶的體系,讓技術(shù)保障部來(lái)支持。劉振飛本著云計(jì)算是公司戰(zhàn)略的精神,拒絕了這一要求。同時(shí),阿里云和技術(shù)保障部專門抽調(diào)技術(shù)骨干組成團(tuán)隊(duì),駐扎到濱江辦公區(qū)為阿里金融提供貼身服務(wù)。最終獲得了他們的認(rèn)可。

下一個(gè)被得罪的,是時(shí)任淘寶副總裁的菲青(王文彬)。他為了上聚石塔項(xiàng)目(電商開放平臺(tái)),來(lái)找劉振飛談技術(shù)保障方面的事情,也是不愿意用阿里云,要用淘寶技術(shù)體系,同樣吃了閉門羹。“我當(dāng)時(shí)說(shuō)如果用淘寶體系的話你自己找人去玩兒,要用云計(jì)算,我全力頂你。我就是這樣非常粗暴地利用手中職權(quán)強(qiáng)迫大家往戰(zhàn)略方向上去走。”劉振飛笑著說(shuō)。

2012年的雙十一,阿里云支撐聚石塔完成全部訂單20 % 的處理,成為云計(jì)算的一大亮點(diǎn)。集團(tuán)外部也有CCTV5的網(wǎng)上直播、浙江臺(tái)風(fēng)預(yù)警系統(tǒng)等出色的案例。

但阿里云最終真正證明自己,還是2013年的事情。除了依靠阿里云迅速成長(zhǎng)為基金業(yè)土豪的余額寶之外,飛天5K項(xiàng)目具有決定性的意義。

事后總結(jié),飛天5K這個(gè)項(xiàng)目并非人為規(guī)劃而是逐步發(fā)展出來(lái)的,其中有幾個(gè)歷史節(jié)點(diǎn)很關(guān)鍵。第一個(gè)關(guān)鍵點(diǎn)就是去IOE,雖然去IOE最開始是王堅(jiān)提出來(lái)的,但與云計(jì)算沒(méi)有直接關(guān)系,可是做著做著就發(fā)現(xiàn)殊途同歸了。去IOE內(nèi)部的爭(zhēng)議也非常大,但做到最后,大家發(fā)現(xiàn)這是一個(gè)有利于國(guó)計(jì)民生的大事。第二個(gè)關(guān)鍵點(diǎn)是2010年我們自己研發(fā)的海量關(guān)系數(shù)據(jù)庫(kù)OceanBase立項(xiàng),現(xiàn)在已經(jīng)成為整個(gè)公司的基礎(chǔ)數(shù)據(jù)庫(kù),包括支付寶交易和賬務(wù)系統(tǒng)所用的Oracle,很多應(yīng)用所用的MySQL,最終都會(huì)轉(zhuǎn)到OceanBase上。第三個(gè)關(guān)鍵點(diǎn)是2010年的雙十一,技術(shù)保障部的組織和雙十一的保障流程建立起來(lái)了。然后的關(guān)鍵節(jié)點(diǎn)就是飛天5K項(xiàng)目,之后內(nèi)部通過(guò)登月計(jì)劃,正在爭(zhēng)先恐后地將原有的數(shù)據(jù)處理平臺(tái)全部遷移到基于飛天5K的ODPS上。最先動(dòng)手的登月一號(hào)是支付寶,已經(jīng)完成了。接下來(lái)的關(guān)鍵點(diǎn)還有今年ODPS的對(duì)外發(fā)布,外部客戶現(xiàn)在所用的基礎(chǔ)設(shè)施和內(nèi)部支付寶、淘寶所用的,已經(jīng)是完全一樣的了。

劉振飛說(shuō),更長(zhǎng)遠(yuǎn)地來(lái)看,5K這個(gè)項(xiàng)目將在阿里巴巴歷史上留下很重的一筆。在此之后,阿里技術(shù)團(tuán)隊(duì)內(nèi)部停止了爭(zhēng)論,原來(lái)做兩攤事兒不時(shí)競(jìng)爭(zhēng)的人,兵合一處,并肩作戰(zhàn)。與之對(duì)應(yīng)的,是阿里云的口碑越來(lái)越好,網(wǎng)上能見到的吐槽也越來(lái)越少。馬云后來(lái)說(shuō)過(guò)一句話,他說(shuō)飛天、ODPS和云OS這三個(gè)東西,是我們阿里巴巴要重心打造的重武器或者核武器,這是我們的技術(shù)的核心,一定要搞好。

劉振飛透露,最近淘寶系的負(fù)責(zé)人也向他表示,已經(jīng)在認(rèn)真考慮核心系統(tǒng)上云的問(wèn)題了。內(nèi)部對(duì)云計(jì)算達(dá)成共識(shí)之后,劉振飛和阿里技術(shù)保障部基于幾年的實(shí)戰(zhàn)經(jīng)驗(yàn),對(duì)云計(jì)算本身和自己要承擔(dān)的責(zé)任與面臨的挑戰(zhàn),做了全面思考。關(guān)于他們的思考結(jié)果和計(jì)劃,我們留給下一期。

劉振飛其人

劉振飛這個(gè)名字,可能外界并不太熟悉。其實(shí),對(duì)于技術(shù)圈,尤其是《程序員》雜志的老讀者和CSDN網(wǎng)站的資深網(wǎng)友來(lái)說(shuō),劉振飛并不陌生。他是河南魯山人,卻有點(diǎn)山東大漢的意思,個(gè)子很高,性格直率。1996年獲得北京大學(xué)碩士學(xué)位,C++程序員出身,曾在微軟Office組任程序經(jīng)理。早在2004年,他就因BugFree這款開源軟件受到廣泛關(guān)注。2005年《程序員》雜志從第1期開始連續(xù)三期刊出了對(duì)他的訪談《Bug管理的經(jīng)驗(yàn)與實(shí)踐》,第8、9期又連載了他撰寫的《網(wǎng)站項(xiàng)目成功管理實(shí)踐》。這一系列細(xì)論軟件和互聯(lián)網(wǎng)研發(fā)管理經(jīng)驗(yàn)的文章廣為流傳,產(chǎn)生了很大影響。2007年和2008年兩屆SD 2.0大會(huì),劉振飛又成為演講嘉賓,這時(shí)他已經(jīng)成為淘寶廣告團(tuán)隊(duì)的技術(shù)總監(jiān)。2009年,他受命組建淘寶技術(shù)保障部,后發(fā)展為整個(gè)阿里集團(tuán)的基礎(chǔ)技術(shù)支撐部門。2014年成為阿里27名合伙人之一。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version