近日,金山AI Lab獲得了計(jì)算機(jī)視覺(jué)界的頂級(jí)競(jìng)賽之一MS COCO Image Captioning以及IEEE特別發(fā)起的國(guó)際大數(shù)據(jù)分析競(jìng)賽(IEEE ISI World Cup 2019)雙料冠軍。
兩大頂級(jí)賽事競(jìng)爭(zhēng)激烈
MS COCO(Microsoft Common Objects in Context,常見(jiàn)物體圖像識(shí)別)是計(jì)算機(jī)視覺(jué)領(lǐng)域最受關(guān)注和最權(quán)威的比賽之一,是圖像(物體)識(shí)別方向最重要的標(biāo)桿,也是目前國(guó)際領(lǐng)域唯一能夠匯集谷歌、微軟、Facebook 三大巨頭以及國(guó)際頂尖院校共同參與的大賽。目前MS COCO 競(jìng)賽,共有物體檢測(cè) (Detection)、人體關(guān)鍵點(diǎn)檢測(cè) (Keypoints)、圖像分割 (Stuff)、全景分割(Panoptic)和圖像描述生成 (Captions) 五個(gè)類別的比賽任務(wù),其中圖像描述生成任務(wù) (Captions)需要同時(shí)對(duì)圖像與文本進(jìn)行深度的理解與融合,相比其他任務(wù)更具有挑戰(zhàn)性。包括騰訊、華為、Microsoft、中科院自動(dòng)化所、北京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、UC Berkeley、Stanford University等企業(yè)、科研機(jī)構(gòu)和高校,迄今共有 200 多支隊(duì)伍參與了這項(xiàng)比賽。
而由IEEE(IEEE ISI安全信息學(xué)領(lǐng)域的旗艦會(huì)議),特別發(fā)起的國(guó)際大數(shù)據(jù)分析競(jìng)賽(IEEE ISI World Cup 2019)同樣競(jìng)爭(zhēng)激烈,有來(lái)自中國(guó)、美國(guó)、巴基斯坦、英國(guó)、德國(guó)等7個(gè)國(guó)家的企業(yè)、高校共363支隊(duì)伍,1001名選手參戰(zhàn)。
金山AI Lab在圖像描述、大數(shù)據(jù)分析兩大領(lǐng)域表現(xiàn)不俗
金山AI Lab在大數(shù)據(jù)人工智能飛速發(fā)展的背景下成立。目前,金山AI Lab以NLP為核心,涵蓋圖像、文本、語(yǔ)音三大方向,主要研究?jī)?nèi)容分為知識(shí)圖譜、機(jī)器翻譯、內(nèi)容推薦和智能校對(duì)等。研究項(xiàng)目主要分為兩類,一類是專注于落地的項(xiàng)目,如機(jī)器翻譯、智能校對(duì)等;另一類是專注于基礎(chǔ)服務(wù)的項(xiàng)目,例如知識(shí)圖譜,可以對(duì)這些直接落地的項(xiàng)目提供長(zhǎng)期的輔助研究。這兩項(xiàng)比賽取得的成功很好地證明了金山AI Lab在圖像及大數(shù)據(jù)分析方面的實(shí)力。
MS COCO比賽中,金山AI Lab團(tuán)隊(duì)參與了挑戰(zhàn)性最大的圖像描述生成任務(wù) (Captions)項(xiàng)目。圖像描述生成(image caption)是使機(jī)器理解圖像內(nèi)容,并用人類語(yǔ)言描述其所理解的圖像內(nèi)容。圖像描述生成(image caption)技術(shù)是一個(gè)結(jié)合計(jì)算機(jī)視覺(jué)與 NLP技術(shù)的多模態(tài)交叉研究領(lǐng)域,這個(gè)任務(wù)不僅僅需要理解圖像,更需要理解自然語(yǔ)言,是深度學(xué)習(xí)處理多模態(tài)數(shù)據(jù)的一個(gè)重要任務(wù)。
金山AI Lab團(tuán)隊(duì)使用目前流行的Transformer模型,并針對(duì)圖像信息利用不充分的問(wèn)題提出了結(jié)合圖像關(guān)鍵信息的keywords Transformer、利用動(dòng)態(tài)卷積結(jié)構(gòu)改進(jìn)Transformer的解碼端、提出了有效的多特征融合機(jī)制和多模型系統(tǒng)融合等技術(shù),使生成的圖像描述更準(zhǔn)確、相關(guān)性更高、句子更流暢。結(jié)合WPS在辦公場(chǎng)景下的優(yōu)勢(shì),前述技術(shù)可以在公式識(shí)別、圖像描述、圖像檢索等場(chǎng)景大顯身手。
總體流程
#FormatImgID_3#
keywords transformer模型
Keywords_MIA Transformer模型
在ISI World Cup競(jìng)賽中,金山AI Lab派出兩支團(tuán)隊(duì)分別參加兩個(gè)任務(wù),一支隊(duì)伍在M2中以44分奪得冠軍,分?jǐn)?shù)比其他隊(duì)伍高了接近一倍,達(dá)到了參賽隊(duì)伍中的領(lǐng)先水平,可以在生產(chǎn)環(huán)境中直接應(yīng)用,解決企業(yè)痛點(diǎn)。在M2上面,金山AI Lab使用了遞進(jìn)優(yōu)化的策略,對(duì)數(shù)據(jù)進(jìn)行多層次的分類,避免了數(shù)據(jù)分布因極度不均衡而帶來(lái)的訓(xùn)練失效問(wèn)題。另一支隊(duì)伍在M1中取得第五名。