聚焦于人工智能領(lǐng)域的商湯科技,是一家靠原創(chuàng)技術(shù)火起來的中國公司,曾先后被BAT競(jìng)購,目前已獲得IDG數(shù)千萬美元A輪融資。包括京東、小米、華為等都在使用商湯科技的計(jì)算機(jī)視覺技術(shù)。
當(dāng)我們?cè)谡務(wù)撊斯ぶ悄軙r(shí),我們?cè)谡務(wù)撌裁?mdash;—或許是AlphaGo,或許是微軟小冰,甚至或許是電影《星球大戰(zhàn)》中的經(jīng)典機(jī)器人形象R2D2和BB8,但中國原創(chuàng)的人工智能卻鮮有人談起。
一方面中國的人工智能技術(shù)仍未成熟,另一方面滿大街趕熱點(diǎn)打著“人工智能”幌子的騙子公司太多,魚龍混雜之下讓人摸不著頭腦。
“如果你不掌握最核心的東西,其實(shí)很難說你是在做人工智能。”徐立坐在會(huì)議室里侃侃而談,從神經(jīng)網(wǎng)絡(luò)算法談到數(shù)據(jù)驅(qū)動(dòng),從神經(jīng)網(wǎng)絡(luò)的鼻祖Geoffrey Hinton,談到人工智能“四大天王”里除Hinton以外的Yoshua Bengio、Yann Lecun和Andrew Ng。當(dāng)然他最想談的,還是他一手創(chuàng)立的人工智能公司商湯科技(SenseTime)。
徐立所說的“核心的東西”,指的是深度學(xué)習(xí)。他認(rèn)為,要看一家公司是不是真正做人工智能的,只需看它是否掌握深度學(xué)習(xí)技術(shù)。
人工智能的發(fā)展經(jīng)歷了多個(gè)階段,早期的人工智能實(shí)際上是“人工指導(dǎo)智能”,即由人來指導(dǎo)電腦什么是對(duì)的什么是錯(cuò)的。但如果要讓電腦像人一樣思考,則需要電腦在大量的數(shù)據(jù)中學(xué)習(xí),像人腦的神經(jīng)元一樣相互聯(lián)系起來生成信號(hào),最終理解復(fù)雜的事物。這就是現(xiàn)在業(yè)界所說的深度學(xué)習(xí)。
徐立舉例說明。以人臉識(shí)別為例,傳統(tǒng)的方法會(huì)告訴電腦,以人的眼睛之間的距離,和鼻子、嘴巴的特征為標(biāo)準(zhǔn),如果特征是一樣的,那就是同一個(gè)人。但是這些特征都是人設(shè)計(jì)的,所做的判斷還是基于人的判斷。
深度學(xué)習(xí)不一樣,它用一個(gè)復(fù)雜的、像人腦一般的網(wǎng)絡(luò),將包含各種系數(shù)的神經(jīng)元連接好幾層,然后讓它根據(jù)科學(xué)家提供的深度學(xué)習(xí)架構(gòu)不停地看大量的照片數(shù)據(jù),最終由它自己去衍生出一種判斷“兩個(gè)人是否同一個(gè)人”的能力,這種能力甚至可以超越人眼的準(zhǔn)確率。
在人工智能迅速崛起的大背景下,深度學(xué)習(xí)既是學(xué)術(shù)前沿,又是工業(yè)前沿,知識(shí)是這個(gè)領(lǐng)域最重要的財(cái)富。而承載這些知識(shí)的是人。
谷歌很早就意識(shí)到了這一點(diǎn)。2014年,谷歌斥資4億英鎊收購一家鮮為人知的小公司DeepMind。這家公司沒有任何產(chǎn)品,除了12位科學(xué)家。
“所有人都認(rèn)為谷歌瘋了,亂花錢,4億買12個(gè)人,什么邏輯?但谷歌知道他們的價(jià)值。”徐立告訴界面新聞?dòng)浾撸?dāng)時(shí)Yoshua Bengio評(píng)論道,世界上有50個(gè)人是真正的深度學(xué)習(xí)專家,其中12個(gè)人在DeepMind。谷歌顯然是在布局未來,后來AlphaGo就是DeepMind研究的成果。
緊隨谷歌的腳步,百度、Facebook分別請(qǐng)來了Andrew Ng和Yann Lecun,建立了百度深度學(xué)習(xí)研究院和Facebook AI Lab。其他大公司如雅虎、微軟等亦紛紛跟進(jìn),人工智能從最前沿的學(xué)術(shù)界走向了工業(yè)界,開始給業(yè)界帶來顛覆性的變化。
看到學(xué)術(shù)熱點(diǎn)與工業(yè)熱點(diǎn)結(jié)合得如此緊密,徐立興奮不已。徐立出身于學(xué)術(shù)界,本碩畢業(yè)于上海交通大學(xué),博士畢業(yè)于香港中文大學(xué),擁有十余年計(jì)算機(jī)視覺、模式識(shí)別、圖像處理領(lǐng)域的研究和產(chǎn)品開發(fā)經(jīng)驗(yàn),在視覺領(lǐng)域頂級(jí)會(huì)議、期刊上發(fā)表40余篇專著,并先后在摩托羅拉研究院、歐姆龍研究所、微軟研究院、聯(lián)想研究院等計(jì)算機(jī)視覺基礎(chǔ)研究機(jī)構(gòu)訪問工作。
他以深厚的學(xué)術(shù)背景,從自身研究的計(jì)算機(jī)視覺方向出發(fā),招募了來自MIT、斯坦福、香港大學(xué)、香港中文大學(xué)、清華大學(xué)等高校的數(shù)十名深度學(xué)習(xí)科學(xué)家,以及多位谷歌、百度、微軟、聯(lián)想等產(chǎn)業(yè)界核心工程人員。
而最讓人吃驚的是,徐立的團(tuán)隊(duì)里居然有50名博士,其中不乏兩任ICCV(國際計(jì)算機(jī)視覺大會(huì))領(lǐng)域主席、韓國科學(xué)技術(shù)學(xué)院(KAIST)2011年杰出教授戴宇榮博士,以及安徽高考狀元、香港中文大學(xué)博士、曾在Kaggle數(shù)據(jù)科學(xué)家排行榜亞洲科學(xué)家中排名第一的張偉博士這樣的牛人。
“這些博士不是一個(gè)個(gè)、而是一串串招進(jìn)來。”徐立笑道。徐立從自己的實(shí)驗(yàn)室招攬了不少師弟師妹,又從香港中文大學(xué)多媒體實(shí)驗(yàn)室,以及微軟研究院等機(jī)構(gòu)招募了多個(gè)團(tuán)隊(duì)。各個(gè)負(fù)責(zé)人帶一支隊(duì)伍進(jìn)來,自然地形成了一個(gè)個(gè)資深的研究團(tuán)隊(duì)。
這些學(xué)術(shù)界大拿們?nèi)紝W⒂谟?jì)算機(jī)視覺以及人工智能領(lǐng)域,曾在三大國際頂級(jí)機(jī)器視覺會(huì)議CVPR、ICCV、ECCV上共發(fā)表論文超過150篇,在亞洲企業(yè)中排名第一,在世界范圍僅排在谷歌、微軟之后。
如此強(qiáng)大的研究力量很快發(fā)光發(fā)亮。2014年9月,商湯科技(SenseTime)的科學(xué)家們首次出征素有“計(jì)算機(jī)視覺奧林匹克”之稱的ImageNet競(jìng)賽,在大規(guī)模物體檢測(cè)比賽中以40.7% 的成績(jī)獲得世界亞軍,僅次于谷歌的 43.9%。
2015年ImageNet新增了一項(xiàng)視頻物體檢測(cè)的任務(wù),比靜態(tài)圖像中的物體檢測(cè)的難度更高,商湯科技卻在該項(xiàng)目中以成功識(shí)別28類物體正確率第一贏得該項(xiàng)的冠軍,成為首個(gè)在ImageNet奪冠的中國企業(yè)。
“簡(jiǎn)單來說,就是圖片以毫秒級(jí)的速度閃過時(shí),計(jì)算機(jī)要識(shí)別出圖片里面是一個(gè)人,是一本書,一輛車,還是一只動(dòng)物。”徐立向界面記者解釋。
這樣的深度學(xué)習(xí)有三個(gè)關(guān)鍵點(diǎn),第一是“腦子”的聰明程度,它取決于造“腦子”的科學(xué)家是否擁有很好的深度學(xué)習(xí)框架。第二是數(shù)據(jù)量,有了“腦子”之后需要教它,大量的數(shù)據(jù)才能提供足夠的訓(xùn)練并驅(qū)動(dòng)“大腦”。最后是計(jì)算資源,有了聰明的“大腦”和足夠的“教材”,還需要由多塊GPU組成的深度學(xué)習(xí)超算,才能快速消化大量數(shù)據(jù)。
2014年5月,百度推出了當(dāng)時(shí)世界上最快的深度學(xué)習(xí)Minwa機(jī)器人。Andrew Ng對(duì)外宣稱,Minwa連接了144塊GPU。與之對(duì)比,前段時(shí)間大放光彩的AlphaGo則連接了170塊GPU。
“SenseTime(商湯科技)目前連接了200塊GPU,算得上世界上最快的深度學(xué)習(xí)超級(jí)計(jì)算機(jī)之一。”對(duì)此徐立不無得意。
然而,聚集了眾多科研大咖的商湯科技收獲的并非全是贊譽(yù),也有一些人認(rèn)為他們所做的事情不接地氣,離消費(fèi)者太遠(yuǎn)。
但由于掌握了獨(dú)特的技術(shù),商湯科技很快便吸引了不少科技公司的關(guān)注。“在中國很少有靠原創(chuàng)技術(shù)火起來的公司,但正因?yàn)槿绱舜蠹覍?duì)技術(shù)有一種渴求,實(shí)力過硬的技術(shù)能夠很快打動(dòng)對(duì)方。”徐立說。
科技行業(yè)信息流動(dòng)快,各大廠商不求人無我有,但求人有我有。因?yàn)槟軌蚝芎玫亟Y(jié)合用戶娛樂功能,很快小米手機(jī)、華為Mate8的系統(tǒng)相冊(cè)都植入了商湯科技提供的人臉識(shí)別功能——用戶拍的任何一張照片都可以用人臉特點(diǎn)進(jìn)行歸類。類似的技術(shù)因?yàn)轭H受用戶歡迎,后來也被新浪微博的相冊(cè)所采用。
“還有前段時(shí)間很火的Faceu應(yīng)用,以及Snow自拍App、花椒直播、美圖相機(jī)等等這一類產(chǎn)品均適使用了我們提供的技術(shù),因此我們的用戶實(shí)際上已經(jīng)超過幾億人。”徐立說,商湯科技定位為技術(shù)提供者的角色,采用B2B2C的模式進(jìn)行階梯報(bào)價(jià),按軟件裝機(jī)量的多少進(jìn)行分成。
*商湯科技的人臉識(shí)別技術(shù)
除了移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,徐立認(rèn)為未來商湯科技的視覺智能技術(shù)還將在互聯(lián)網(wǎng)金融和安防監(jiān)控領(lǐng)域得到很好的應(yīng)用。
以安防監(jiān)控為例,商湯科技和東方網(wǎng)力科技合作,將人臉識(shí)別技術(shù)應(yīng)用于警方的監(jiān)控視頻中,通過算法在多處的攝像頭視頻中找出同一個(gè)人。目前這樣的“抓逃系統(tǒng)”已經(jīng)在深圳地鐵部署測(cè)試。
*商湯科技的智能監(jiān)控功能
“這三個(gè)領(lǐng)域都有一個(gè)共同特征,就是對(duì)人口紅利的需求很大,但卻因?yàn)橹袊娜丝诩t利在下降而遭遇困難。”徐立認(rèn)為,很多互聯(lián)網(wǎng)金融公司動(dòng)輒需要幾千員工審核用戶上傳的資料,“十二五”要實(shí)現(xiàn)智慧的城市則需要大量攝像頭聯(lián)網(wǎng),收集回來的數(shù)據(jù)也要耗費(fèi)大量人力梳理——這些困難和挑戰(zhàn),統(tǒng)統(tǒng)可以通過視覺智能解決。
目前已獲得IDG數(shù)千萬美元A輪融資的商湯科技早期曾經(jīng)被蘋果問詢收購事宜,但當(dāng)時(shí)商湯科技的團(tuán)隊(duì)已經(jīng)有70人,但徐立認(rèn)為既然要做大,就要先做品牌化,這樣的話才能服務(wù)大眾。“如果過早在BAT中站隊(duì),發(fā)展就會(huì)面臨局限。”徐立說。
對(duì)于人工智能最近成為熱門話題,徐立認(rèn)為這一方面是好事,因?yàn)槟茏尨蟊姼私馊斯ぶ悄埽矔?huì)促使很多創(chuàng)業(yè)者投身人工智能發(fā)展事業(yè)當(dāng)中;但另一方面,這個(gè)概念也會(huì)被一些并非真正想做人工智能的人利用,造成負(fù)面影響和人們的誤解。
“實(shí)際上人們所說的、能夠自主思考的’人工智能意識(shí)’離我們還很遠(yuǎn),但只要數(shù)據(jù)足夠大,人工智能的確可以在垂直領(lǐng)域通過積累經(jīng)驗(yàn)超越人類。”徐立認(rèn)為,深度學(xué)習(xí)由數(shù)據(jù)驅(qū)動(dòng),而擁有數(shù)據(jù)紅利和場(chǎng)景優(yōu)勢(shì),人才儲(chǔ)備也不差,中國有實(shí)力、也有責(zé)任做真正的原創(chuàng)的人工智能。