ITBear旗下自媒體矩陣:

李彥宏開(kāi)放百度大腦 四大功能重新想象未來(lái)

   時(shí)間:2016-09-01 16:24:02 來(lái)源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評(píng)論無(wú)障礙通道

9月1日,2016百度世界大會(huì)在北京舉行,百度創(chuàng)始人、董事長(zhǎng)兼CEO李彥宏出席并向在坐近千名嘉賓展示了百度大腦的核心AI能力。前幾天在西安的一次演講中,李彥宏曾透露,關(guān)于人工智能當(dāng)前最重要的問(wèn)題之一——AI到底能做什么,他將在百度世界上與大家分享,這也讓這次大會(huì)還未開(kāi)始就格外受人期待。

作為國(guó)內(nèi)乃至全球人工智能技術(shù)的領(lǐng)跑者,百度近年來(lái)對(duì)AI的投入不遺余力,那么百度的人工智能的核心是什么?又具備了哪些能力?怎樣評(píng)價(jià)百度人工智能的水平?李彥宏在演講中首次全面揭示了百度人工智能的核心——百度大腦的四項(xiàng)基礎(chǔ)能力。

在大會(huì)上,李彥宏從語(yǔ)音、圖像、自然語(yǔ)言理解和用戶畫(huà)像能力四個(gè)方面,為在坐嘉賓展示了百度大腦的進(jìn)化程度,以及人工智能背景下人們的“智能生活”。如今,百度大腦能力已進(jìn)入百度數(shù)十個(gè)業(yè)務(wù)和產(chǎn)品線當(dāng)中,百度在技術(shù)創(chuàng)新一線的戰(zhàn)果一覽無(wú)遺。他表示,如何更好地利用這些能力,還需要各行業(yè)從自己的領(lǐng)域出發(fā)進(jìn)行思考和想象。

演講的最后,李彥宏用“因智而能”定義人工智能為各行業(yè)帶來(lái)的革命性影響,“這些能力賦予到全社會(huì)的每個(gè)人,它能夠變換出來(lái)無(wú)窮無(wú)盡的可能性”。

以下為李彥宏在2016年百度世界大會(huì)上的演講實(shí)錄:

Robin:各位來(lái)賓大家早上好!歡迎來(lái)到2016百度世界。

大家知道,百度世界是我們每年舉辦一次的百度技術(shù)創(chuàng)新大會(huì)。今年的主題我們聚焦在人工智能,大家在之前收到的請(qǐng)柬上已經(jīng)看到這個(gè)主題了。剛才開(kāi)場(chǎng)視頻是以人工智能為主題的,今天我的主題演講也將圍繞著人工智能來(lái)展開(kāi)。

今年6月份,我在百度聯(lián)盟峰會(huì)上講了一個(gè)概念,叫做互聯(lián)網(wǎng)的下一幕。下一幕是什么意思呢?就是說(shuō),互聯(lián)網(wǎng)的發(fā)展在此之前已經(jīng)經(jīng)過(guò)了兩個(gè)非常重要的階段,第一個(gè)階段大概持續(xù)了十幾年的時(shí)間,就是我們講的PC互聯(lián)網(wǎng)階段。第二個(gè)階段是在最近四五年,我們把它叫做移動(dòng)互聯(lián)網(wǎng)的階段。對(duì)于中國(guó)市場(chǎng)來(lái)說(shuō),隨著上網(wǎng)人數(shù)越來(lái)越多,上網(wǎng)人口的滲透率越來(lái)越高,現(xiàn)在已經(jīng)達(dá)到了七億多,就是說(shuō)已經(jīng)超過(guò)了50%的滲透率,同時(shí),每一個(gè)上網(wǎng)的人現(xiàn)在也基本都用上了智能手機(jī)。這意味著什么呢?這意味著,未來(lái)互聯(lián)網(wǎng)的增長(zhǎng)不能再靠人口紅利來(lái)驅(qū)動(dòng)了,也就是說(shuō),移動(dòng)互聯(lián)網(wǎng)的時(shí)代其實(shí)正在離開(kāi)我們。這可能是很多人覺(jué)得難以接受的。我們國(guó)家現(xiàn)在進(jìn)入了所謂的新常態(tài),經(jīng)濟(jì)的增長(zhǎng)需要靠“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃來(lái)推動(dòng),所謂“互聯(lián)網(wǎng)+”就是希望用互聯(lián)網(wǎng)的思維方式、互聯(lián)網(wǎng)的效率來(lái)推動(dòng)各個(gè)行業(yè)、產(chǎn)業(yè)的繼續(xù)發(fā)展。但是,我們互聯(lián)網(wǎng)的從業(yè)者其實(shí)又深深地感受到了這其中的危機(jī),這個(gè)危機(jī)就是因?yàn)檫^(guò)去的粗放增長(zhǎng)階段已經(jīng)結(jié)束了。

移動(dòng)互聯(lián)網(wǎng)之后的下一幕是什么?其實(shí)現(xiàn)在已經(jīng)很清楚了,就是我們所說(shuō)的人工智能。人工智能對(duì)于百度來(lái)說(shuō)是核心當(dāng)中的核心,我們也很幸運(yùn),在過(guò)去的五六年當(dāng)中,百度花了很大很大的精力投入到人工智能的研發(fā)當(dāng)中。人工智能對(duì)于百度來(lái)說(shuō)意味著什么呢?我可以用簡(jiǎn)單的四個(gè)字來(lái)描述,就是百度大腦。百度大腦的概念我們其實(shí)在大約三年前就對(duì)外講過(guò)。那個(gè)時(shí)候我們講,百度大腦已經(jīng)具備了大概兩三歲孩子的智力水平了。自此以后,不斷的有人來(lái)問(wèn)我,尤其是今年人工智能突然火起來(lái)了之后,很多人來(lái)問(wèn)我說(shuō),你們這個(gè)百度大腦現(xiàn)在相當(dāng)于多少歲人的智力水平了。

要回答這個(gè)問(wèn)題其實(shí)還蠻難的,我也不知道它現(xiàn)在是多少歲了,因?yàn)楫吘谷四X和電腦它還是有很大的區(qū)別,百度大腦雖然是一個(gè)人工智能的大腦,但是它和人正常的發(fā)育的過(guò)程還是很不一樣的。

百度大腦到底由什么構(gòu)成的呢?它基本上是由三個(gè)大的部分組成的。第一個(gè)組成部分,就是人工智能的算法。我們有超大規(guī)模的神經(jīng)網(wǎng)絡(luò),這是模擬人的神經(jīng)元組成的網(wǎng)絡(luò),但其實(shí)我們也不知道真正人腦工作的原理是什么,只是想象當(dāng)中應(yīng)該是這個(gè)樣子。我們還使用了萬(wàn)億級(jí)的參數(shù),人腦的神經(jīng)源大概是千億級(jí)的,我們也有千億的樣本和千億的特征進(jìn)行訓(xùn)練。整個(gè)這些東西組成了百度大腦當(dāng)中算法的部分。

百度大腦的第二個(gè)組成部分是我們計(jì)算能力?,F(xiàn)在我們已經(jīng)使用了數(shù)十萬(wàn)臺(tái)的服務(wù)器來(lái)進(jìn)行計(jì)算,而這當(dāng)中很多的服務(wù)器不是傳統(tǒng)基于CPU的服務(wù)器,而是基于GPU。早年的時(shí)候,GPU主要在游戲等領(lǐng)域使用得比較廣泛,在人工智能、尤其是深度學(xué)習(xí)起來(lái)以后,我們發(fā)現(xiàn),其實(shí)GPU特別適合人工智能的計(jì)算,尤其是深度學(xué)習(xí)的計(jì)算,一塊GPU可以頂100個(gè)CPU的計(jì)算能力。有關(guān)GPU的事情,我之后會(huì)請(qǐng)一位外部的嘉賓,就是NVIDIA的創(chuàng)始人和CEO黃仁勛先生,讓他給大家介紹更多有關(guān)GPU的,尤其是在人工智能領(lǐng)域應(yīng)用的情況。

百度大腦的第三部分是數(shù)據(jù)。數(shù)據(jù)也非常非常重要,而且這個(gè)數(shù)據(jù)量也是非常大的。比如說(shuō),我們已經(jīng)收集了全網(wǎng)上萬(wàn)億的互聯(lián)網(wǎng)網(wǎng)頁(yè)內(nèi)容,這其中包括了很多視頻、音頻、圖像,這些數(shù)據(jù)也是數(shù)以百億級(jí)的。我們還有每天數(shù)十億次網(wǎng)民的搜索請(qǐng)求,而且還有每天數(shù)百億次的網(wǎng)民定位請(qǐng)求,就是說(shuō)這個(gè)人在什么地方,這樣的請(qǐng)求也比大家想象得多,每天都有好幾百億次這樣的定位請(qǐng)求。

有了算法,有了計(jì)算能力,有了數(shù)據(jù),百度大腦就可以開(kāi)始工作了。百度大腦又到底有什么樣的功能?讓我們來(lái)看一看。

我們今天想重點(diǎn)介紹的四個(gè)功能:一個(gè)是語(yǔ)音的能力,一個(gè)是圖像的能力,一個(gè)是自然語(yǔ)言理解的能力,還有一個(gè)就是用戶畫(huà)像的能力。這幾個(gè)能力雖然都是屬于人工智能中比較典型的應(yīng)用,但是它的發(fā)展階段也是很不一樣的。比如說(shuō)語(yǔ)音,現(xiàn)在就已經(jīng)進(jìn)入了相對(duì)比較成熟的階段,在很多很多領(lǐng)域中都開(kāi)始進(jìn)入實(shí)用階段,識(shí)別的準(zhǔn)確率也已經(jīng)很高了。圖像最近幾年也有了長(zhǎng)足的進(jìn)展。這兩者都屬于人工智能當(dāng)中認(rèn)知的部分,所以深度學(xué)習(xí)的算法非常適合處理這些形式。

相對(duì)來(lái)說(shuō),自然語(yǔ)言的理解、或處理能力就更加難一些,并處在一個(gè)更加早期的階段,因?yàn)樗苏J(rèn)知方面的能力之外,還要求有推理、規(guī)劃等等能力,才能夠真正地理解自然語(yǔ)言。用戶畫(huà)像的能力,其實(shí)從傳統(tǒng)意義上來(lái)講并不是人工智能的領(lǐng)域,但是由于近年來(lái)大數(shù)據(jù)的發(fā)展,尤其是大型互聯(lián)網(wǎng)公司有能力搜集很多用戶的數(shù)據(jù)之后,再用人工智能的方法、用機(jī)器學(xué)習(xí)的方法,就可以把一個(gè)人的特征描繪得非常非常清楚。所以今天,用戶畫(huà)像也變成了人工智能、或者說(shuō)變成了百度大腦的一個(gè)重要功能。

下面我就分別來(lái)講一下這幾個(gè)功能,這幾個(gè)百度大腦的功能。

我們先看一下語(yǔ)音,剛才也講了應(yīng)該說(shuō)今天人工智能發(fā)展的最成熟的一部分能力,而語(yǔ)音又分成兩個(gè)方向,一個(gè)是語(yǔ)音的合成,一個(gè)是語(yǔ)音的識(shí)別。

我們先看看語(yǔ)音識(shí)別。今年MIT Technology Review(《MIT科技評(píng)論》)雜志,把百度的Deep Speech 2評(píng)為“2016改變世界十大突破技術(shù)”,這就是百度的語(yǔ)音識(shí)別引擎,它已經(jīng)到了第二代,主要就是使用了深度學(xué)習(xí)的能力。這樣的一個(gè)技術(shù)已經(jīng)可以把語(yǔ)音識(shí)別的準(zhǔn)確度做到多少呢?大概可以做到97%的準(zhǔn)確率,這樣的準(zhǔn)確率已經(jīng)達(dá)到、甚至有時(shí)已經(jīng)超過(guò)了人對(duì)語(yǔ)音的識(shí)別能力。當(dāng)然,我們講這些能力不是為了簡(jiǎn)單地去炫耀這個(gè)數(shù)字有多好,我更感興趣的是,當(dāng)你有了這些能力時(shí),它可以在什么領(lǐng)域應(yīng)用,又可以在哪些方面幫助到我們,這其實(shí)才是最最讓我們覺(jué)得興奮的地方。我個(gè)人的想象力很有限,整個(gè)百度幾萬(wàn)人的想象力也是有限的,但是這些能力如果賦予到很多很多人,賦予給幾億人、幾十億人,這個(gè)可能性幾乎是無(wú)限的。先用我們比較有限的想象力來(lái)給大家舉一個(gè)例子。

這是一個(gè)銷售、電話銷售的例子,是一個(gè) 2B(To B)的應(yīng)用。這個(gè)應(yīng)用是什么意思呢?很多的公司其實(shí)都有電話銷售這樣的一個(gè)部門,都需要這樣做。但是銷售,尤其是電話銷售這個(gè)行業(yè),大家知道流動(dòng)性是比較大的,很多銷售都是新人,新人的話就會(huì)經(jīng)過(guò)一定的時(shí)間培訓(xùn)才能夠上崗,但即使是經(jīng)過(guò)培訓(xùn)的話,也不一定有那些有經(jīng)驗(yàn)的銷售那么出活兒、出單。其實(shí)有經(jīng)驗(yàn)、最優(yōu)秀的銷售和一般、較差的銷售相比,在效率上有非常大的差別。我們?cè)趺床拍軌蜃屝率帧⒆寷](méi)有經(jīng)驗(yàn)的銷售,能夠具備最優(yōu)秀銷售的銷售能力?過(guò)去的做法是,把優(yōu)秀的銷售經(jīng)驗(yàn)總結(jié)成冊(cè)子讓大家去學(xué)習(xí),讓這些銷售去背,但是怎么活學(xué)活用還是需要一個(gè)過(guò)程的。而有了這么高精度的語(yǔ)音識(shí)別能力之后,我們就可以徹底改變這樣一個(gè)狀況了,甚至可以讓一個(gè)剛剛上崗一個(gè)月的銷售就具備最優(yōu)秀銷售的能力,也就是說(shuō),我們可以通過(guò)實(shí)時(shí)的語(yǔ)音識(shí)別甄別出用戶或客戶在問(wèn)什么問(wèn)題,然后我們?cè)賹?shí)時(shí)地在屏幕上告訴新的銷售,最優(yōu)秀的銷售是怎么回答這個(gè)問(wèn)題的。過(guò)去沒(méi)有實(shí)時(shí)的語(yǔ)音識(shí)別的時(shí)候,你需要線下學(xué),學(xué)完了之后上去用、很容易就忘了,但是有了這個(gè)系統(tǒng)之后,我們就可以解決這樣的問(wèn)題。

我們來(lái)看一下這個(gè)案例。

【播放語(yǔ)音識(shí)別技術(shù)演示視頻】

大家看到,在剛才的過(guò)程中,百度大腦一直在實(shí)時(shí)地識(shí)別雙方的對(duì)話,尤其是從電話里面?zhèn)鞒鰜?lái)的聲音,有的時(shí)候并不是那么清晰,對(duì)于人來(lái)說(shuō)要完全聽(tīng)清楚每一個(gè)字其實(shí)都是有一定難度的,但百度大腦的語(yǔ)音識(shí)別能力已經(jīng)可以做到非常精準(zhǔn),并且可以根據(jù)用戶的問(wèn)題、實(shí)時(shí)推薦下一步的工作要怎樣應(yīng)對(duì),這是一個(gè)語(yǔ)音識(shí)別應(yīng)用在企業(yè)日常運(yùn)作中的一個(gè)例子,就像我剛才講的,應(yīng)該還有很多很多應(yīng)用場(chǎng)景,大家可以根據(jù)自己的背景去想象。

語(yǔ)音識(shí)別是一方面,語(yǔ)音合成又是另外一個(gè)方面。語(yǔ)音合成是什么意思呢?就是機(jī)器可以把文字轉(zhuǎn)換成語(yǔ)音,把它念出來(lái)、讀出來(lái)。今天的語(yǔ)音合成也有了和過(guò)去非常不一樣的體驗(yàn),最主要的就是,它可以用比較自然的人的聲音讀出來(lái),而不是像過(guò)去機(jī)器一樣,每一個(gè)字之間的停頓都是一樣長(zhǎng),是勻速的、沒(méi)有表情的。這樣的自然體驗(yàn),當(dāng)然對(duì)于用戶的黏性來(lái)說(shuō)也是有很大的作用。

現(xiàn)在,百度每天要響應(yīng)2.5億次的語(yǔ)音合成請(qǐng)求,這些請(qǐng)求用來(lái)干什么呢?比如說(shuō),過(guò)去人們看小說(shuō),今天可以在手機(jī)百度里面聽(tīng)小說(shuō)。慢慢的人們聽(tīng)小說(shuō)的時(shí)間也更長(zhǎng)了,過(guò)去每個(gè)人平均在小說(shuō)頻道會(huì)花大概四十分鐘左右的時(shí)間,現(xiàn)在要花將近兩個(gè)半小時(shí),就是因?yàn)榘延?jì)算機(jī)合成出來(lái)的語(yǔ)音讀出來(lái)給我們聽(tīng),確實(shí)是一個(gè)很不錯(cuò)的體驗(yàn),甚至是一種享受。那么這種讀出來(lái)的小說(shuō),和我們平時(shí)聽(tīng)到的廣播有什么本質(zhì)上的不一樣?其實(shí)非常不一樣。廣播是每一個(gè)人聽(tīng)到的東西是一模一樣的,而今天的語(yǔ)音合成,它可以做到每一個(gè)人聽(tīng)到的東西都是不一樣的,完全根據(jù)你個(gè)人的需求進(jìn)行定制,這就是為什么它的(用戶)黏性會(huì)很高,它能夠具備自然發(fā)聲的能力。不僅如此,其實(shí)我們可以想象一下,它如果能夠模擬一個(gè)自然人的表達(dá)方式或發(fā)聲能力,它就可以模擬任何一個(gè)你喜歡的人的說(shuō)話方式。

不知道有沒(méi)有人注意到,百度地圖里導(dǎo)航功能就是用語(yǔ)音來(lái)進(jìn)行的,其中有一個(gè)選項(xiàng)可以用我的聲音進(jìn)行導(dǎo)航。其實(shí)導(dǎo)航的那些話我并沒(méi)有說(shuō)過(guò),機(jī)器只是根據(jù)我平時(shí)說(shuō)話的情況合成了一個(gè)李彥宏的聲音。這樣的聲音不僅在我身上可以做到,在很多其他人身上也可以做到。

我們現(xiàn)在來(lái)給大家展示一個(gè)合成的聲音。我們合成了一下13年前已經(jīng)去世的張國(guó)榮的聲音,我們來(lái)放一段video。

【播放情感語(yǔ)音合成視頻】

為什么給大家展示這個(gè)呢?一方面我知道,很多人是張國(guó)榮的粉絲,另一方面,其實(shí)合成張國(guó)榮的聲音比合成一般人的聲音要更難。為什么呢?因?yàn)樗膰?guó)語(yǔ)語(yǔ)料相對(duì)來(lái)說(shuō)比較少,所以,我們能夠合成他的聲音,就一定能合成很多很多人的聲音。

對(duì)于百度來(lái)說(shuō),百度大腦的語(yǔ)音合成能力可以讓每個(gè)人都有自己的聲音模型,你只要按照我們的要求說(shuō)50句話,我就學(xué)會(huì)了你說(shuō)話的方式。當(dāng)你擁有自己的合成聲音之后,比如說(shuō)家里的老人想經(jīng)常聽(tīng)你說(shuō)一說(shuō),你把這個(gè)聲音合成出來(lái)讓他聽(tīng)就好了。或者說(shuō)你平時(shí)要加班,小孩睡覺(jué)之前想聽(tīng)個(gè)故事,你合成自己的聲音給孩子講一遍這個(gè)故事,聽(tīng)起來(lái)也會(huì)很親切。所以大家可以看到,這些語(yǔ)音的能力會(huì)帶來(lái)各種各樣新的可能性。

下面我給大家講一下圖像。用一個(gè)比較專業(yè)的術(shù)語(yǔ)來(lái)講,我們叫做計(jì)算機(jī)視覺(jué)。這也是現(xiàn)在廣義的人工智能中非常重要的領(lǐng)域。說(shuō)到圖像的識(shí)別,我想大家自然而然會(huì)反應(yīng)出來(lái)一個(gè)什么應(yīng)用呢?應(yīng)該就是我們通常講的人臉識(shí)別的應(yīng)用。人臉識(shí)別的準(zhǔn)確率今天已經(jīng)達(dá)到了99.7%,已經(jīng)非常非常準(zhǔn)確了?,F(xiàn)場(chǎng)的屏幕能夠識(shí)別出來(lái)我們一些嘉賓,根據(jù)他們的人臉,我們知道這個(gè)人是誰(shuí),這個(gè)準(zhǔn)確率已經(jīng)比較高了。剛才進(jìn)來(lái)的時(shí)候,大家也可以看到一些人臉識(shí)別的展臺(tái),我們是可以識(shí)別很多很多人的面孔的。

那么,人臉識(shí)別這個(gè)技術(shù)是怎么實(shí)現(xiàn)的?我們要對(duì)人臉的特征提取它的關(guān)鍵點(diǎn),把這些點(diǎn)打出來(lái)之后要做一些處理,把它連成一個(gè)面部表情,據(jù)此來(lái)識(shí)別這樣一個(gè)人。這就使得當(dāng)一個(gè)人的表情發(fā)生變化的時(shí)候,我們?nèi)匀荒軌蜃R(shí)別出來(lái)這個(gè)特點(diǎn)是沒(méi)有發(fā)生變化的,比如他在哭,他在笑,他在憤怒,他在迷茫,他的表情是不一樣的,但是他的表情特征是不變的,所以我們?nèi)匀豢梢院軠?zhǔn)確地識(shí)別出這樣一個(gè)人。

除了面部識(shí)別之外,圖像識(shí)別還在很多領(lǐng)域也有應(yīng)用。我們?cè)倏匆粋€(gè),這是上海的一個(gè)全景圖,大家使用百度地圖有時(shí)候需要看這樣一個(gè)景,到一個(gè)陌生的地方之前,想看看到那看到的樣子是什么。當(dāng)然,這個(gè)圖不是一個(gè)簡(jiǎn)單的圖像的采集,我們采集了圖像之后要對(duì)圖像中各種各樣的目標(biāo)進(jìn)行識(shí)別,這個(gè)大樓是什么樣的大樓,那個(gè)路牌上面寫(xiě)的什么字,對(duì)寫(xiě)的這個(gè)字識(shí)別的話,跟人臉識(shí)別還不太一樣,這里面有一個(gè)特殊的圖像識(shí)別的技術(shù)就是OCR,這個(gè)是二十多年前我們的一個(gè)專利,到今天它的準(zhǔn)確率已經(jīng)非常高了,下面我們也是用一段視頻給大家看一下百度地圖是如何利用圖像識(shí)別的。

【播放百度地圖視頻】

這是百度地圖利用圖像識(shí)別的情況,其實(shí)還有一個(gè)很重要的領(lǐng)域也是非常需要圖像識(shí)別的技術(shù),這個(gè)領(lǐng)域是什么呢?這就是我們過(guò)去一年來(lái)講得比較多的無(wú)人駕駛汽車。無(wú)人駕駛汽車涉及到很多很多的技術(shù),比如說(shuō)我們需要計(jì)算機(jī)視覺(jué)的技術(shù),需要高精度地圖,需要對(duì)環(huán)境的感知,需要定位,甚至需要語(yǔ)音的通話。但應(yīng)該說(shuō),計(jì)算機(jī)視覺(jué)或者是圖像識(shí)別的技術(shù)是“最后一公里”,無(wú)人駕駛汽車真的要變成沒(méi)有人,真的要能夠解決99.999%、甚至100%的情況,最終還是要依靠計(jì)算機(jī)視覺(jué)的能力,要識(shí)別各種各樣的極端的情況。

去年年底開(kāi)始,我們給大家展示過(guò)百度的無(wú)人車在五環(huán)上跑,在高速上跑的情況,過(guò)去一年左右的時(shí)間我們也花了不少精力去提升我們?cè)诔鞘械缆飞线\(yùn)營(yíng)的水平,下面我們也放一段視頻給大家看一下。

【播放無(wú)人車視頻】

大家看到左下角這是人能夠看到的視野,這個(gè)視野其實(shí)是比較窄的,主屏幕是無(wú)人車能夠看到的路面情況,大家可以感受到,它感知的范圍其實(shí)比人要寬了很多,很多比較遠(yuǎn)的目標(biāo)都可以感知到,每個(gè)目標(biāo)都給出它唯一的編號(hào)進(jìn)行識(shí)別。對(duì)面有什么車過(guò)來(lái)了,遇到紅綠燈,遇到障礙怎么辦,行人怎么能識(shí)別出來(lái),或者是樹(shù)木,周邊的汽車等等,每一個(gè)目標(biāo)我們都進(jìn)行了識(shí)別和編號(hào),這就是實(shí)際的、一個(gè)百度無(wú)人駕駛汽車在城市道路中行駛的情況,上面的45是限速。

這是大致的一個(gè)車看到的世界是什么樣的。這里面涉及了很多計(jì)算機(jī)視覺(jué)或者是圖像識(shí)別的技術(shù),尤其是這兩個(gè)技術(shù):一個(gè)是我們叫做車輛的檢測(cè),你行駛過(guò)程中怎么能夠知道旁邊有車輛,這個(gè)車輛在哪?這個(gè)車輛的檢測(cè)我們現(xiàn)在按照國(guó)際權(quán)威的評(píng)測(cè)來(lái)看,車輛檢測(cè)的能力,百度無(wú)人車已經(jīng)排名第一了。還有一個(gè)很重要的能力是車輛跟蹤的能力。這個(gè)不僅是全自動(dòng)的無(wú)人車,即使是對(duì)半自動(dòng)的、高度自動(dòng)駕駛來(lái)說(shuō),也是一個(gè)很基本的能力。你怎樣能夠準(zhǔn)確地跟著前面的車走,這個(gè)技術(shù)在包括準(zhǔn)確性、全面性、連續(xù)性等六項(xiàng)指標(biāo)中,我們已經(jīng)有四項(xiàng)拿到了第一。

這是無(wú)人車對(duì)于圖像識(shí)別依賴的情況。我們?cè)俳o大家展示一個(gè)領(lǐng)域,就是增強(qiáng)現(xiàn)實(shí)AR,AR其實(shí)也是非常依賴(圖像識(shí)別)。拿著手機(jī)拍一下現(xiàn)實(shí)的情況,我們要能夠識(shí)別出來(lái)這是哪,這里面有什么,然后才能跟用戶進(jìn)行互動(dòng),才能產(chǎn)生真實(shí)世界和一些虛擬世界的完美的結(jié)合。那么這個(gè)東西有什么應(yīng)用呢?我們也覺(jué)得很高興我們的周總、我們的廣告主非常敏銳地把握到了這么一個(gè)機(jī)會(huì),他說(shuō)OK,我可以把現(xiàn)實(shí)世界中我的產(chǎn)品和虛擬世界中我希望用戶感知的東西結(jié)合在一起,這樣的一個(gè)做法也可以說(shuō)是一種新型的廣告形式,下面我們就來(lái)看一個(gè)具體的例子。這是我們跟歐萊雅中國(guó)合作的一個(gè)例子。我們放視頻。

【播放歐萊雅視頻】

所以大家看到無(wú)論你拿手機(jī)拍一張明信片,還是拍一個(gè)實(shí)物的洗發(fā)水,它都可以準(zhǔn)確地識(shí)別出來(lái)這個(gè)東西,和用戶進(jìn)行互動(dòng),這里面不僅有圖像識(shí)別的技術(shù),也很大程度上取決于廣告主的創(chuàng)意,如果創(chuàng)意和這個(gè)技術(shù)結(jié)合,對(duì)消費(fèi)者的吸引力也非常大,所以我們也期待將來(lái)的時(shí)間和客戶很好地合作,把這個(gè)創(chuàng)意,把最優(yōu)秀的想法和最優(yōu)秀的技術(shù)結(jié)合起來(lái),給消費(fèi)者帶來(lái)實(shí)惠。

這是有關(guān)圖像識(shí)別方面的幾個(gè)例子。下面我們?cè)倏醋匀徽Z(yǔ)言處理。自然語(yǔ)言處理其實(shí)我剛才也講了,它的成熟程度應(yīng)該不如語(yǔ)音,甚至不如圖像識(shí)別,但是即使在目前的狀態(tài)下,它也能夠給大家?guī)?lái)很多很多不一樣的體驗(yàn)。最直接的例子應(yīng)該是我們?nèi)ツ暝诎俣仁澜绱髸?huì)上講的一個(gè)例子,就是度秘。度秘是一個(gè)個(gè)人智能的助理。這個(gè)個(gè)人智能助理今天我們可以在手機(jī)百度里面找到,度秘跟用戶進(jìn)行交互,現(xiàn)在已經(jīng)有超過(guò)一半的交互是通過(guò)語(yǔ)音和圖像來(lái)完成的,去年我們也講了,語(yǔ)音和圖像將來(lái)會(huì)變成一個(gè)主流。

度秘除了它能夠識(shí)別語(yǔ)音和圖像之外,其實(shí)它更關(guān)鍵、更核心的技術(shù),是能夠用人的語(yǔ)言來(lái)與人進(jìn)行交流,并且能夠理解人的很多意思和意圖,盡管不是每一次都能理解。

過(guò)去這段時(shí)間我們也利用度秘的自然語(yǔ)言的能力做了一個(gè)比較有意思的應(yīng)用,用度秘來(lái)解說(shuō)奧運(yùn)籃球,下面我們看一下視頻。

【播放度秘與楊毅合作解說(shuō)視頻】

這個(gè)不是度秘單獨(dú)完成的一次解說(shuō),是他和著名籃球評(píng)論員楊毅先生一起合作做的一次奧運(yùn)籃球比賽的解說(shuō)。今天我們也很高興把楊毅先生請(qǐng)到了現(xiàn)場(chǎng),現(xiàn)在請(qǐng)他上臺(tái)。

【嘉賓楊毅登臺(tái)】

楊毅:大家上午好,我是楊毅。

Robin:剛才我們看到很有意思。你跟度秘一起解說(shuō)了一場(chǎng)籃球的比賽,而且我也注意到你的風(fēng)格和度秘的風(fēng)格還是很不一樣的,我想問(wèn)你一下,作為一個(gè)籃球評(píng)論員,你覺(jué)得一個(gè)好的解說(shuō)員應(yīng)該具備什么樣的能力?

楊毅:首先我覺(jué)得很難說(shuō)我有資格來(lái)講一個(gè)好的評(píng)論員要具備什么樣的能力,我相信很多行業(yè)都在不斷地前進(jìn)和發(fā)展。而且對(duì)一個(gè)解說(shuō)員,即使他解說(shuō)了一萬(wàn)場(chǎng)比賽,但他下面面臨的一場(chǎng)比賽也是新的。但我想,總的來(lái)說(shuō),一個(gè)解說(shuō)要想很好地工作,首先你要對(duì)這個(gè)項(xiàng)目有非常深刻的了解,無(wú)論對(duì)它的項(xiàng)目特點(diǎn)還是歷史背景,第二個(gè)要有非常快速的現(xiàn)場(chǎng)反應(yīng)能力,第三個(gè)我覺(jué)得要有出眾的語(yǔ)言表達(dá)能力,把你看到的、聽(tīng)到的,能夠盡快地呈現(xiàn)給觀眾或者是聽(tīng)眾。

Robin:對(duì),這些能力度秘都在不斷地學(xué)習(xí)過(guò)程中,還有很多不完美的地方,我也希望度秘能夠從你的身上學(xué)到很多很多東西。剛才我們看到你和度秘合作的這樣一次解說(shuō),它跟你學(xué)習(xí)了一次之后,我們想讓它單獨(dú)做一次籃球比賽的解說(shuō),現(xiàn)在我們看一下度秘解說(shuō)籃球奧運(yùn)決賽的情況。

【播放度秘解說(shuō)奧運(yùn)籃球決賽視頻】

Robin:ok,這是度秘單獨(dú)的解說(shuō),也想請(qǐng)楊毅先生評(píng)論一下你的學(xué)生表現(xiàn)怎么樣?

楊毅:顯然度秘比之前和它一起說(shuō)的時(shí)候完成得更好了。其實(shí)我跟它說(shuō)的時(shí)候,它的表現(xiàn)就是出乎我的預(yù)料的,我也聽(tīng)說(shuō)它學(xué)習(xí)過(guò)上百場(chǎng)甚至上千場(chǎng)的比賽,它對(duì)比賽的基本知識(shí)儲(chǔ)備是沒(méi)問(wèn)題的,在這個(gè)行業(yè)里面,它可能比我知道得還多,因?yàn)閹啄昵暗谋荣愇铱赡芤呀?jīng)忘了,但是仍然裝在它的電腦里。上知天文,下知地理,什么都明白,它的表達(dá)也是比較清楚的,在我跟它說(shuō)的時(shí)候,我覺(jué)得只有一個(gè)小小的問(wèn)題,我覺(jué)得它說(shuō)話的速度確實(shí)是好慢。但是大家剛才看到,它說(shuō)決賽的時(shí)候能明顯感到語(yǔ)速加快了,更符合體育競(jìng)技的特點(diǎn),更快速地將現(xiàn)場(chǎng)的情緒傳達(dá)給觀眾。

Robin:對(duì),我其實(shí)非常同意。剛才聽(tīng)的時(shí)候我也有點(diǎn)著急,它說(shuō)的語(yǔ)速是比較慢的。但是像你剛才講的,度秘也有它的優(yōu)勢(shì),比如它的記憶能力是比人強(qiáng)的,它學(xué)習(xí)了幾百場(chǎng)的奧運(yùn)籃球比賽,每個(gè)運(yùn)動(dòng)員的個(gè)人資料它都記得非常清楚,遇到這些知識(shí)型的問(wèn)題,它可以非常迅速地、方便地回答。另外我們看解說(shuō)本身,用戶是可以跟度秘進(jìn)行互動(dòng)的,你點(diǎn)一下“雙方三分球的對(duì)比”,馬上就出來(lái)各種各樣的數(shù)據(jù)了,這是度秘的優(yōu)勢(shì)。但是度秘的劣勢(shì)就是它對(duì)人的語(yǔ)言的理解和人的語(yǔ)言的創(chuàng)造能力還有很多需要學(xué)習(xí)的地方,我們也非常希望楊毅先生能夠多給我們度秘提一些建議和提升的地方,也希望我們下次再有機(jī)會(huì)合作時(shí),它說(shuō)話至少快一點(diǎn)。

楊毅:我覺(jué)得它下面的這些功能是非常好的。你可以想象一下,如果它成為一個(gè)成熟的產(chǎn)品,在每個(gè)球迷收看比賽的時(shí)候在家里身邊沙發(fā)上都能擺一個(gè)小機(jī)器人,一邊看著電視里的比賽,聽(tīng)著電視里的解說(shuō),當(dāng)然它可能在電視里解說(shuō);同時(shí)他身邊也有個(gè)度秘,可以不斷地就他所關(guān)心的問(wèn)題問(wèn)身邊這個(gè)小機(jī)器人,能夠隨時(shí)給他進(jìn)行解答,就真正成為了球迷在收看比賽時(shí)候的好朋友。

Robin:我相信這一天一定會(huì)到來(lái)的!而且對(duì)于度秘來(lái)說(shuō),籃球和其他的比賽沒(méi)有任何區(qū)別,都是學(xué)習(xí)知識(shí),它主要的能力還是不斷地學(xué)習(xí)人的思維方式和表達(dá)方式。

楊毅:我相信它肯定會(huì)越來(lái)越好。

Robin:謝謝楊毅。

【嘉賓楊毅下場(chǎng)】

Robin:這是有關(guān)自然語(yǔ)言理解的一些介紹,下面再給大家展示一個(gè)自然語(yǔ)言理解的應(yīng)用。這個(gè)應(yīng)用的領(lǐng)域其實(shí)也不是特別新,就是自動(dòng)翻譯。你要想把一種語(yǔ)言轉(zhuǎn)換成另外一種語(yǔ)言,你必須得理解這種語(yǔ)言在說(shuō)什么。它不是簡(jiǎn)單的把語(yǔ)音轉(zhuǎn)成文字,更多的是需要你知道它是什么意思。今天的百度翻譯已經(jīng)可以支持27種語(yǔ)言、數(shù)百種不同方向的對(duì)譯了?,F(xiàn)在我們來(lái)看一下百度翻譯有多大程度上能夠理解人的自然語(yǔ)言。

【播放百度翻譯演示視頻】

Robin:這其實(shí)不是一個(gè)演示,這是一個(gè)實(shí)際的例子。今天當(dāng)大家打開(kāi)百度翻譯,它已經(jīng)具備了這樣的能力。所以我們看到對(duì)于自然語(yǔ)言的理解一旦能夠達(dá)到一定程度,它就又打開(kāi)了很多新的可能性。

下面我們講百度大腦的第四個(gè)能力,就是用戶畫(huà)像的能力。用戶畫(huà)像也是基于百度的大數(shù)據(jù)以及機(jī)器學(xué)習(xí)的方式所獲得的一個(gè)能力?,F(xiàn)在我們已經(jīng)有接近10億的用戶畫(huà)像,其中對(duì)于他們的識(shí)別我們已經(jīng)用到了千萬(wàn)級(jí)的細(xì)分標(biāo)簽。這些標(biāo)簽主要在兩個(gè)維度上體現(xiàn),一個(gè)是通用的維度,它的人口學(xué)特征、短期的意圖、位置屬性;也有一些垂直行業(yè)的特征,他在金融領(lǐng)域是什么樣的情況,它在保險(xiǎn)、醫(yī)療、旅游、健康等領(lǐng)域都有什么樣的愛(ài)好、習(xí)慣,這些東西都共同構(gòu)成了我們的用戶畫(huà)像。

用戶畫(huà)像有什么用途?首先給大家舉一個(gè)百度的例子。

最近幾個(gè)月大家可能注意到了手機(jī)百度,除了上面的搜索框之外,下面增加了各種各樣的文章。這些文章有時(shí)候是新聞,有時(shí)候不見(jiàn)得是新聞,但是確實(shí)是你感興趣的東西。之所以它能夠把你感興趣的東西推薦出來(lái),就是因?yàn)槲覀兝昧税俣鹊挠脩舢?huà)像。我知道你是一個(gè)什么人,你喜歡看什么樣的東西。有了這樣的個(gè)性化推薦,過(guò)去兩個(gè)月手機(jī)百度推薦的文章的閱讀量增長(zhǎng)了10倍,這種能力就是靠百度給用戶打了60多萬(wàn)個(gè)標(biāo)簽,而每個(gè)用戶都是這其中某些標(biāo)簽組合后描畫(huà)出來(lái)的,所以它可以做到千人千面,準(zhǔn)確地講,不是千人千面,而是萬(wàn)人萬(wàn)面,億人億面,每個(gè)人對(duì)于百度來(lái)說(shuō)都是不一樣的個(gè)體。所以,每個(gè)人看到的信息和文章都是不一樣的。

這是一個(gè)百度內(nèi)部使用的例子,我們也認(rèn)為用戶畫(huà)像可以在很多其他領(lǐng)域使用。我們?cè)俳o大家展示一個(gè)外部的例子。這是6月份上映的電影《魔獸》,它的出品人是傳奇影業(yè),他們就是利用了百度大腦的用戶畫(huà)像功能來(lái)提升它的票房。那么它是怎么做到的呢?我們也來(lái)看一個(gè)視頻。

【播放傳奇影業(yè)視頻】

這個(gè)做法很聰明,它把人群分成三類,一類人是不管怎么樣都要看的,另外一類是不管怎么樣都不會(huì)看的,這兩種人他們都不太關(guān)心。它關(guān)心的是它可以影響的人群,再通過(guò)用戶畫(huà)像把這些人從搖擺的轉(zhuǎn)換成真正去電影院看的。(原來(lái))他認(rèn)為如果有5%的票房提升就很滿意了,最后實(shí)際上提升超過(guò)了200%。當(dāng)然這不是簡(jiǎn)單的說(shuō)百度你給我用戶畫(huà)像,它一用就實(shí)現(xiàn)了提升,他們也下了很大的功夫去設(shè)計(jì)整體的推廣過(guò)程。原版的video是比這個(gè)長(zhǎng)很多的,大家有興趣可以聯(lián)系我們的工作人員,看它完整的做法是什么樣的。

講到這里,我基本上把百度大腦幾個(gè)主要的大功能都已經(jīng)呈現(xiàn)出來(lái)了。下面我想請(qǐng)一位大家都很熟悉的明星,和我一起回顧一下百度大腦的這幾個(gè)功能。這個(gè)明星就在我們這張照片中。我們首先用百度大腦的圖像識(shí)別功能把這位明星找出來(lái)。大家知道他是誰(shuí)嗎?對(duì),他就是著名演員胡歌。

【嘉賓胡歌登臺(tái)】

胡歌:你好,Robin,各位尊敬的來(lái)賓大家好。我是胡歌。今天非常榮幸可以參加百度世界大會(huì)。剛才我在側(cè)臺(tái)也聽(tīng)了非常精彩的演講,感受到了很多新的科技。之前我有聽(tīng)說(shuō)過(guò)人臉支付,以后如果可以像剛才那樣在一大群人中先進(jìn)行人臉識(shí)別,再完成支付,這個(gè)真是太便捷、太智能了。

Robin:你是想搶著買單嗎?

胡歌:如果以后有機(jī)會(huì)我和Robin要一塊吃飯,到買單的時(shí)候,我肯定把臉轉(zhuǎn)過(guò)去,不跟你搶買單。(笑)

Robin:沒(méi)問(wèn)題,我買單。剛才我們已經(jīng)看到了百度大腦對(duì)你的面部的識(shí)別。我還可以給你展示一些其他的能力,比如語(yǔ)音合成的能力。這個(gè)能力是這樣的,當(dāng)你念一首詞,你念它的上半部分,百度大腦念它的下半部分,但是它念出來(lái)應(yīng)該跟你是一樣的,它學(xué)的是你的聲音。

胡歌:這么厲害。

Robin:這首詞,是百度名字的來(lái)歷。你可以來(lái)念一下上闕。

胡歌:東風(fēng)夜放花千樹(shù),更吹落、星如雨。寶馬雕車香滿路。鳳簫聲動(dòng),玉壺光轉(zhuǎn),一夜魚(yú)龍舞。

【情感語(yǔ)音合成技術(shù)現(xiàn)場(chǎng)演示】

胡歌:太神奇了,首先讓我震撼的是,它能把我的聲音模仿得這么像。第二,它連百度錢包的代言詞都給我改了,真的挺智能的。

Robin:這是語(yǔ)音識(shí)別的能力,其實(shí)用戶畫(huà)像的能力對(duì)你其實(shí)也有用,為什么有用呢?你的粉絲都是什么樣的人。

Robin:這是根據(jù)你的粉絲的興趣偏好“畫(huà)”出來(lái)的東西。我還是有一點(diǎn)驚訝的,本來(lái)以為關(guān)心影視、音樂(lè)應(yīng)該是最大的群體,但是我們看到旅游出行、網(wǎng)絡(luò)購(gòu)物是你這些粉絲群體特別特別喜歡的東西。

胡歌:我看到旅游出行和餐飲美食可能是他們最感興趣的,那么能不能在這兒根據(jù)這個(gè)興趣數(shù)據(jù)也為我的粉絲謀取一些專屬的福利呢?

Robin:好啊。那我們下來(lái)通過(guò)糯米或是其他的平臺(tái)給胡歌粉絲提供專享的優(yōu)惠。百度大腦的這些能力都是今天已經(jīng)實(shí)現(xiàn)的。剛才我也講到這個(gè)大腦一天一天都在學(xué)習(xí)和成長(zhǎng),它的能力也在不斷的進(jìn)步。所以我完全可以想象有一天當(dāng)你決定要接一部戲的時(shí)候,你只要在這個(gè)合同上簽一下字,剩下的事情就都交給百度大腦來(lái)干,它可以合成你的聲音、可以合成你的圖像、可以做你的動(dòng)作,以后演戲你只要說(shuō)Yes,剩下的事我們就都給你辦了。(笑)

胡歌:科技在不斷發(fā)展,但是演戲?qū)ξ襾?lái)說(shuō)還是我畢生藝術(shù)上的追求,我覺(jué)得百度大腦可以為我的生活帶來(lái)很多便利,但演戲這個(gè)事我還是自己來(lái)干吧!(笑)我相信它可以做好,但是我更愿意自己來(lái)做!

Robin:好的好的,以后百度大腦具有新的能力的時(shí)候,我及時(shí)通知你。這有可能是好消息,也有可能是壞消息。

胡歌:謝謝!感謝今天讓我感受到了這么先進(jìn)的科技,我也希望百度大腦能夠越來(lái)越強(qiáng)大,越來(lái)越智能。謝謝Robin!

【嘉賓胡歌下場(chǎng)】

Robin:謝謝胡歌!今天我們?nèi)嬲故玖税俣却竽X各種各樣的能力,我覺(jué)得,而在我自己和百度同學(xué)的想象范圍內(nèi),這些能力能做的事情已經(jīng)很多了,但是更讓我興奮的是如果這些能力賦予到全社會(huì)的每個(gè)人,它能夠變換出來(lái)無(wú)窮無(wú)盡的可能性。所以,百度大腦會(huì)把語(yǔ)音、圖像、自然語(yǔ)言理解和用戶畫(huà)像等能力完全開(kāi)放出來(lái),并且在大多數(shù)情況下這些能力會(huì)是免費(fèi)提供的。有了這樣的能力,有了開(kāi)放共享,將給各行各業(yè)的人群帶來(lái)過(guò)去大家做不到的、不敢想的能力。我在這里也邀請(qǐng)每個(gè)人重新想象你所在的行業(yè),重新想象中國(guó)經(jīng)濟(jì),重新想象世界的未來(lái)。

謝謝大家!

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version