ITBear旗下自媒體矩陣:

聚焦多模態(tài)自然語言處理,京東智聯(lián)云亮相NLPCC 2020

   時(shí)間:2020-11-02 13:53:21 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

近年來,人工智能 (AI) 在涉及單一模態(tài)如語音、自然語言和視覺等領(lǐng)域,取得了重大突破。在單一模態(tài)的任務(wù)上,如物體識別、語音識別、機(jī)器翻譯等,AI 系統(tǒng)在特定數(shù)據(jù)集上的表現(xiàn)水平與人類相當(dāng)。隨著單模態(tài)人工智能潛在問題的解決,研究人員意識到更高層次的AI任務(wù)往往涉及到跨多種模式的更復(fù)雜的信息處理。同時(shí),局限于單一模態(tài)的研究往往不能充分利用跨模態(tài)信息。因此,研究多模態(tài)建模與學(xué)習(xí)方法具有重要的意義。

在本次國際自然語言處理與中文計(jì)算會議 (NLPCC 2020)上, 京東智聯(lián)云舉辦了第一屆“多模態(tài)自然語言處理研討會”。該研討會邀請了多位學(xué)術(shù)大咖進(jìn)行學(xué)術(shù)分享,吸引了自然語言處理、多模態(tài)、圖像處理等多領(lǐng)域眾多學(xué)者參與。會中,各位學(xué)者就跨語言跨模態(tài)信息處理、多模態(tài)預(yù)訓(xùn)練、AI與藝術(shù)、視覺與語言交互、多模態(tài)對話系統(tǒng)等領(lǐng)域的研究熱點(diǎn)和技術(shù)應(yīng)用展開討論,反響熱烈。

看點(diǎn)一  多模態(tài)自動摘要生成

多模態(tài)已成為新聞報(bào)道和信息交流的主要呈現(xiàn)形式,多模態(tài)自動摘要技術(shù),旨在利用計(jì)算機(jī)自動實(shí)現(xiàn)從多個(gè)模態(tài)的信息中壓縮生成摘要的過程,可以廣泛應(yīng)用于新聞推送和電商推薦等多個(gè)領(lǐng)域。

在本次研討會中,來自中科院自動化所的研究員張家俊老師,為大家介紹其所在的課題組近年來在多模態(tài)摘要方法和評價(jià)等方面的研究進(jìn)展。張老師重點(diǎn)介紹了異源多模態(tài)摘要生成的研究方法變遷:從抽取式方法到生成式方法,再到目前融入多模態(tài)注意力機(jī)制的圖文式摘要生成方法等。同時(shí),張老師也介紹了多模態(tài)自動摘要的自動評價(jià)方法: 綜合考慮文本和圖片重要性以及文本圖片相關(guān)性更加貼近人工打分。

upload/2020-11/201102135464637.png

Slides link: https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-JiajunZhang.pdf

看點(diǎn)二 多模態(tài)預(yù)訓(xùn)練模型

預(yù)訓(xùn)練模型的出現(xiàn),使自然語言處理由原來的手工調(diào)參、依靠機(jī)器學(xué)習(xí)專家的階段,進(jìn)入到可以大規(guī)模、可復(fù)制的大工業(yè)施展階段。此階段基于預(yù)訓(xùn)練模型+微調(diào)機(jī)制,具備很高的可擴(kuò)展性,展現(xiàn)出很高潛力。而當(dāng)前研究也從單一語言擴(kuò)展到多模態(tài)。

微軟亞洲研究院的高級研究員段楠博士為大家介紹了多模態(tài)預(yù)訓(xùn)練模型的最新研究進(jìn)展。他首先回顧了典型的預(yù)訓(xùn)練模型。隨后,重點(diǎn)介紹了3種最新的多模態(tài)預(yù)訓(xùn)練模型:Unicoder主要應(yīng)用于跨語言的語言理解和生成任務(wù);Unicoder VL專注于視頻語言任務(wù),對視頻片段和對應(yīng)的自然語言描述進(jìn)行聯(lián)合建模;CodeBERT則關(guān)注在代碼語言任務(wù)。段博士也和與會學(xué)者一起討論了當(dāng)前多模態(tài)預(yù)訓(xùn)練的問題和可能的未來方向。

upload/2020-11/201102135464636.png

Slides link:https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-NanDuan.pdf

看點(diǎn)三  人工智能藝術(shù)與設(shè)計(jì)

“AI+藝術(shù)是一個(gè)跨界領(lǐng)域。藝術(shù)家的想象力往往啟發(fā)著科學(xué)家的創(chuàng)造力,而在AI時(shí)代,藝術(shù)家用人工智能機(jī)器學(xué)習(xí)相關(guān)技術(shù)來創(chuàng)作藝術(shù),表達(dá)自己的想法和概念,設(shè)計(jì)師用神經(jīng)網(wǎng)絡(luò)模型創(chuàng)造自己的設(shè)計(jì)工具和助手。”

清華大學(xué)未來實(shí)驗(yàn)室博士后高峰分享了AI技術(shù)在藝術(shù)與設(shè)計(jì)領(lǐng)域的創(chuàng)新性應(yīng)用。其團(tuán)隊(duì)開發(fā)的道子智能繪畫系統(tǒng),利用計(jì)算機(jī)將自然圖像以風(fēng)格遷移的方式轉(zhuǎn)變成藝術(shù)圖像,根據(jù)所得藝術(shù)圖像進(jìn)行水墨畫繪作,實(shí)現(xiàn)技術(shù)與藝術(shù)間的跨界融合。高博士也介紹了道子在服裝設(shè)計(jì)、工業(yè)設(shè)計(jì)、裝置藝術(shù)等領(lǐng)域的探索成果。

upload/2020-11/201102135464635.png

看點(diǎn)四 多模態(tài)智能分析

多模態(tài)智能分析是近期的研究熱點(diǎn)。來自北航的劉偲教授圍繞視覺和語言的交互介紹兩方面的內(nèi)容進(jìn)行了分享。她首先介紹了視覺關(guān)系檢測的研究,包括人-物關(guān)系檢測,人-物關(guān)系分割,視頻關(guān)系檢測等方面的內(nèi)容。其次,她指出視覺指代表達(dá)和指代分割,對于智能機(jī)器人和交互式圖像編輯等實(shí)際應(yīng)用有重要意義。 傳統(tǒng)的視覺指代表達(dá)方法采用兩階段式架構(gòu),模型復(fù)雜且速度受限,而傳統(tǒng)的指代分割方法聚焦于多模態(tài)特征融合,缺乏利用語言信息進(jìn)行上下文建模和推理的能力。在本次討論中,她給出了針對性的解決方法。

upload/2020-11/201102135464632.png

Slides link:https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-SiLiu.pdf

看點(diǎn)五 多模態(tài)對話系統(tǒng)

對話系統(tǒng)一直是自然語言理解領(lǐng)域一個(gè)重要的研究內(nèi)容,它可以使人們更便捷的與機(jī)器進(jìn)行交互,而多模態(tài)的對話系統(tǒng)是非常重要的一個(gè)研究方向。

平安壽險(xiǎn)AI研發(fā)團(tuán)隊(duì)的楊海欽博士,分享了多模態(tài)對話系統(tǒng)在平安人壽各種場景的應(yīng)用,包括保單回訪服務(wù)和視頻柜員客服等。在本次講座中,楊博士重點(diǎn)介紹了多模態(tài)對話系統(tǒng)的核心和創(chuàng)新技術(shù),實(shí)際部署經(jīng)驗(yàn)以及如何應(yīng)用該系統(tǒng)來降低運(yùn)營成本,同時(shí)增加用戶體驗(yàn)。

upload/2020-11/201102135464631.png

Slides link: https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-HaiqinYang.pdf

在此次NLPCC 會議中,京東智聯(lián)云成功舉辦了第一屆“多模態(tài)自然語言處理研討會”,吸引眾多參會學(xué)者的積極參與和熱烈討論。同時(shí)京東AI研究院NLP算法科學(xué)家吳友政博士受大會邀請作“智能人機(jī)交互及其應(yīng)用”的主題分享。另外京東AI研究院一篇論文被大會收錄并進(jìn)行口頭匯報(bào)。(Paper link https://link.springer.com/chapter/10.1007/978-3-030-60450-9_6)

upload/2020-11/201102135464634.png
upload/2020-11/201102135464633.png
舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version