ITBear旗下自媒體矩陣:

全球首個(gè)知識增強(qiáng)的多模態(tài)預(yù)訓(xùn)練模型,百度ERNIE-ViL超越谷歌登頂權(quán)威榜單

   時(shí)間:2020-07-07 09:27:04 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

賦予機(jī)器“認(rèn)知”能力一直以來便是人工智能中最具挑戰(zhàn)的難題,如今這個(gè)難題隨著百度ERNIE新模型的推出而逐漸有了一個(gè)較為清晰的答案。

近日,百度提出了知識增強(qiáng)的視覺-語言預(yù)訓(xùn)練模型ERNIE-ViL,首次將場景圖知識融入多模態(tài)預(yù)訓(xùn)練,大幅提升了機(jī)器“理解人類”的能力。該模型不僅取得了5項(xiàng)多模態(tài)任務(wù)的最優(yōu)解(SOTA),更是超越Google、Facebook等科技巨頭,登頂國際權(quán)威榜單——視覺常識推理任務(wù)榜(VCR)。

夜以繼日的攻堅(jiān),讓百度ERNIE此次在多模態(tài)語義理解領(lǐng)域取得了重大突破,不僅為多模態(tài)語義理解領(lǐng)域研究提供了新的思路,而且賦予了機(jī)器更加強(qiáng)大的“認(rèn)知”能力,讓AI技術(shù)的適用性進(jìn)一步得到加強(qiáng),為賦能各行各業(yè)提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

超越Google、Facebook,百度ERNIE再度登頂

從誕生至今,百度ERNIE已經(jīng)取得了一系列傲人的戰(zhàn)績。先是登頂自然語言處理領(lǐng)域最權(quán)威的GLUE評測榜單,后豪取全球規(guī)模最大的語義評測比賽 SemEval 5項(xiàng)世界冠軍,再到如今超越Google、Facebook,摘得業(yè)內(nèi)權(quán)威榜單——視覺常識推理(Visual Commonsense Reasoning)任務(wù)榜桂冠,百度ERNIE實(shí)力由此可見一斑。

視覺常識推理任務(wù)是華盛頓大學(xué)2018年提出,旨在驗(yàn)證多模態(tài)模型高階認(rèn)知和常識推理的能力,其榜是單多模態(tài)領(lǐng)域最權(quán)威的排行榜之一。

視覺常識推理示意圖

該榜單的產(chǎn)生也頗具趣味性,其是由華盛頓大學(xué)和艾倫人工智能研究所的研究者聯(lián)合創(chuàng)建了一個(gè)數(shù)據(jù)集,包含了十幾萬道專門為機(jī)器準(zhǔn)備的類似“看圖問答”的測試題,以考驗(yàn)人工智能在這方面的能力。

可別小瞧“看圖問答”的難度,雖然對于人類來說,數(shù)據(jù)集里面的題目輕輕松松就能拿下90多分,但對于機(jī)器來說,卻有著不小的難度,在數(shù)據(jù)集剛出來的時(shí)候,表現(xiàn)最好的人工智能訓(xùn)練模型也不過60多分。

而這則吸引了微軟、谷歌、Facebook等公司及UCLA、佐治亞理工學(xué)院等頂尖機(jī)構(gòu)參與,紛紛發(fā)起挑戰(zhàn),由此形成了VCR排行榜(VCR Leaderboard)。此次百度ERNIE-ViL也參戰(zhàn)在列,并且憑借強(qiáng)大的實(shí)力一舉奪得單模型第一的成績,并在Q->AR聯(lián)合任務(wù)上以領(lǐng)先榜單第二名3.7個(gè)百分點(diǎn)的成績登頂,力壓谷歌、Facebook等頂尖科技公司一頭。

除此之外,百度ERNIE-ViL在視覺問答、跨模態(tài)圖片檢索、 跨模態(tài)文本檢索、 引用表達(dá)式理解等5項(xiàng)任務(wù)上也刷新了SOTA結(jié)果,這意味著百度的相關(guān)算法已實(shí)現(xiàn)當(dāng)前最優(yōu)。

硬核技術(shù),讓機(jī)器更懂人類

無論是奪得排行榜第一,還是刷新5項(xiàng)SOTA,都彰顯了此次百度提出的多模態(tài)模型ERNIE-ViL在技術(shù)層面的硬核。

一直以來,讓機(jī)器具備像人類一樣的理解和思考能力是科研人竭力想要攻破的難題,而這需要機(jī)器具備語言、語音、視覺等多模態(tài)語義理解能力。此次百度提出的模型ERNIE-ViL,其將場景圖知識融入到視覺-語言模型的預(yù)訓(xùn)練過程中,顯著增強(qiáng)了機(jī)器跨模態(tài)的語義理解能力。

視覺-語言預(yù)訓(xùn)練技術(shù)的目標(biāo)是讓人工智能學(xué)習(xí)視覺-語言模態(tài)之間的語義對齊,通俗來說,就是讓人工智能更準(zhǔn)確地描述出場景中的內(nèi)容,也就是“看圖說話”。而現(xiàn)有的預(yù)訓(xùn)練方法尚處早期,使得機(jī)器只能簡單識別視覺場景中的物體,而無法詳述其屬性(如顏色)以及物體之間的聯(lián)系(如上下)。

百度ERNIE-ViL的提出則填補(bǔ)了這一技術(shù)空白,依托于ERNIE-ViL,機(jī)器不僅可以識別場景圖中物體,還可識別屬性以及物體之間的關(guān)聯(lián),極大提升了機(jī)器的“識圖”能力。

該項(xiàng)技術(shù)突破,大幅提升了AI聽懂、看懂、理解環(huán)境的能力,進(jìn)一步拓寬了其應(yīng)用場景。如果說原來的人工智能只能運(yùn)用于基礎(chǔ)工作,如今,依托于百度ERNIE,人工智能將進(jìn)一步推動(dòng)在各行各業(yè)的應(yīng)用,比如人機(jī)交互、搜索引擎、用戶風(fēng)控等場景,提升行業(yè)效率。

值得一提的是,百度ERNIE-ViL還可以根據(jù)上下文對場景中的物體、屬性、關(guān)系進(jìn)行常識推理,這意味機(jī)器已經(jīng)可以充分理解事物之間的聯(lián)系。事實(shí)也的確如此,相比于其他語言-視覺模型,百度ERNIE-ViL在預(yù)測文中表述的細(xì)粒度語義詞(物體、屬性、關(guān)系)時(shí),表現(xiàn)更為優(yōu)越,準(zhǔn)確率分別提升了2.12%、1.31% 和 6.00%。

短短一年多時(shí)間,依托百度大腦和百度飛槳強(qiáng)大的技術(shù)平臺能力以及龐大的數(shù)據(jù)資源,百度ERNIE完成了多次迭代,同時(shí)在自然語言生成、語言-視覺等方面推出了全新的模型,提供多模態(tài)語義理解研究新思路的同時(shí),極大推動(dòng)了人工智能技術(shù)的發(fā)展。

深入理解語言,賦予機(jī)器“認(rèn)知”能力,讓機(jī)器真正具備人類的思考和理解能力意義重大,這是推動(dòng)人工智能更好、更快落地的關(guān)鍵之處。隨著百度ERNIE技術(shù)的不斷迭代,以及不斷探索多模態(tài)語義理解領(lǐng)域新的方向,未來人工智能不僅能更好的“理解”人類的意思,還能完成更高階的“表達(dá)”,以此推動(dòng)人工智能技術(shù)賦能實(shí)體產(chǎn)業(yè),加快國家步入智能化時(shí)代的步伐。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version