歡度春節(jié)之際,人工智能的發(fā)展腳步卻沒有停歇。2月21日,春節(jié)假期最后一天,百度自然語言處理團隊研發(fā)的V-Net模型以46.15的Rouge-L得分登上微軟的MS MARCO(Microsoft MAchine Reading COmprehension)機器閱讀理解測試排行榜首。
圖1 MS MARCO 排行榜
對此,微軟 MARCO官方 twitter也發(fā)文表示祝賀。
圖2 MS MARCO 官方twitter 向百度表示祝賀
MARCO是微軟基于搜索引擎BING構(gòu)建的大規(guī)模英文閱讀理解數(shù)據(jù)集,包含10萬個問題和20萬篇不重復(fù)的文檔。MARCO數(shù)據(jù)集中的問題全部來自于 BING 的搜索日志,根據(jù)用戶在BING 中輸入的真實問題模擬搜索引擎中的真實應(yīng)用場景,是該領(lǐng)域最有應(yīng)用價值的數(shù)據(jù)集之一。
此次百度NLP在MARCO提交的V-NET模型,使用了一種新的多候選文檔聯(lián)合建模表示方法,通過注意力機制使不同文檔產(chǎn)生的答案之間能夠產(chǎn)生交換信息,互相印證,從而更好的預(yù)測答案。值得注意的是,此次百度只憑借單模型(single model)就拿到了第一名,并沒有提交更容易拿高分的多模型集成(ensemble)結(jié)果。
此前,在機器閱讀理解領(lǐng)域,研究者多參與由斯坦福大學(xué)發(fā)起的SQuAD挑戰(zhàn)賽。但相比SQuAD,MARCO的挑戰(zhàn)難度更大,因為它需要測試者提交的模型具備理解復(fù)雜文檔、回答復(fù)雜問題的能力。
據(jù)了解,對于每一個問題,MARCO 提供多篇來自搜索結(jié)果的網(wǎng)頁文檔,系統(tǒng)需要通過閱讀這些文檔來回答用戶提出的問題。但是,文檔中是否含有答案,以及答案具體在哪一篇文檔中,都需要系統(tǒng)自己來判斷解決。更有趣的是,有一部分問題無法在文檔中直接找到答案,需要閱讀理解模型自己做出判斷;MARCO 也不限制答案必須是文檔中的片段,很多問題的答案必須經(jīng)過多篇文檔綜合提煉得到。這對機器閱讀理解提出了更高的要求,需要機器具備綜合理解多文檔信息、聚合生成問題答案的能力。
百度在自然語言處理領(lǐng)域已經(jīng)過十余年積累與沉淀,具備了最前沿、最全面、最領(lǐng)先的技術(shù)布局,不僅專注于前瞻技術(shù)探索,更致力通過技術(shù)應(yīng)用解決實際問題。這也是百度此次選擇MARCO數(shù)據(jù)集而不是SQuAD的主要原因。目前,百度的閱讀理解、深度問答等技術(shù)已經(jīng)在搜索等產(chǎn)品中實際應(yīng)用,它可通過深入地分析、理解用戶的問題,從相關(guān)網(wǎng)頁中定位答案,并經(jīng)過總結(jié)、提煉、歸納后把答案在顯著的位置呈現(xiàn)給用戶,使用戶不需要點開網(wǎng)頁就可以直接獲取準確答案,大大地提升了用戶獲取精準信息的效率。這樣的技術(shù)和服務(wù),每天響應(yīng)著數(shù)億次的用戶請求。
“此次在MARCO的測試中取得第一,只是百度機器閱讀理解技術(shù)經(jīng)歷的一次小考,”百度自然語言處理首席科學(xué)家兼百度技術(shù)委員會主席吳華表示,“我們希望能夠與領(lǐng)域內(nèi)的其他同行者一起,推進機器閱讀理解技術(shù)和應(yīng)用的研究,使AI能夠理解人類的語言、用自然語言與人類交流,讓AI更‘懂’人類。”