在2018年中央電視臺(tái)春節(jié)聯(lián)歡晚會(huì)上,以百度無(wú)人車(chē)等為代表的高科技產(chǎn)品登上了電視熒屏,這使人工智能再次成為社會(huì)熱議的話(huà)題。2月21日,百度自然語(yǔ)言處理團(tuán)隊(duì)研發(fā)的 V-Net 模型以46.15的 Rouge-L 得分登上微軟的 MS MARCO 機(jī)器閱讀理解測(cè)試排行榜首,機(jī)器閱讀理解領(lǐng)域再次引起內(nèi)業(yè)關(guān)注。
正如百度自然語(yǔ)言處理首席科學(xué)家兼百度技術(shù)委員會(huì)主席吳華所說(shuō)“此次在 MARCO 的測(cè)試中取得第一,只是百度機(jī)器閱讀理解技術(shù)經(jīng)歷的一次小考”,未來(lái)百度還希望能聯(lián)手領(lǐng)域內(nèi)的其他同行者,推進(jìn)機(jī)器閱讀理解技術(shù)的應(yīng)用和研究。為實(shí)現(xiàn)這一愿景,由百度、中國(guó)中文信息學(xué)會(huì)評(píng)測(cè)工作委員會(huì)(CIPS)和中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)聯(lián)合舉辦“2018機(jī)器閱讀理解技術(shù)競(jìng)賽”,3月1日,競(jìng)賽官網(wǎng)http://mrc2018.cipsc.org.cn/ 正式開(kāi)啟報(bào)名通道,并將在第三屆語(yǔ)言與智能高峰論壇舉辦競(jìng)賽的頒獎(jiǎng)典禮和學(xué)術(shù)交流活動(dòng)。
為了進(jìn)一步提升機(jī)器閱讀理解的研究水平,推動(dòng)語(yǔ)言理解和人工智能領(lǐng)域技術(shù)研究和應(yīng)用的發(fā)展,2018機(jī)器閱讀理解技術(shù)競(jìng)賽孕育而生。本次大賽的任務(wù)是對(duì)于給定問(wèn)題q及其對(duì)應(yīng)的文本形式的候選文檔集合D=d1, d2, ..., dn,要求參評(píng)閱讀理解系統(tǒng)自動(dòng)對(duì)問(wèn)題及候選文檔進(jìn)行分析,輸出能夠滿(mǎn)足問(wèn)題的文本答案a。為了便于參賽選手快速了解競(jìng)賽任務(wù),競(jìng)賽還提供了兩個(gè)開(kāi)源的閱讀理解基線(xiàn)系統(tǒng),并采用ROUGH-L和BLEU作為評(píng)價(jià)指標(biāo)。
此外,百度公司將提供30萬(wàn)個(gè)來(lái)自于百度搜索的真實(shí)問(wèn)題的數(shù)據(jù)集,每個(gè)問(wèn)題對(duì)應(yīng)5個(gè)候選文檔文本,以及人工撰寫(xiě)的優(yōu)質(zhì)答案,這些數(shù)據(jù)集將被劃分為28萬(wàn)的訓(xùn)練集,1萬(wàn)開(kāi)發(fā)集和1萬(wàn)測(cè)試集。該數(shù)據(jù)集中包含了DuReader中已發(fā)布的20萬(wàn)問(wèn)題數(shù)據(jù),用于預(yù)訓(xùn)練和測(cè)試,成功報(bào)名競(jìng)賽的團(tuán)隊(duì)將獲得新增的10萬(wàn)問(wèn)題數(shù)據(jù)集。
通過(guò)本次競(jìng)賽,百度公司將提供應(yīng)用于真實(shí)場(chǎng)景的大規(guī)模中文閱讀理解數(shù)據(jù)集,為研究者提供學(xué)術(shù)交流的平臺(tái),一方面進(jìn)一步提升機(jī)器閱讀理解技術(shù)的研究水平,提升算法優(yōu)化的驗(yàn)證效率,吸引、發(fā)掘優(yōu)質(zhì)AI人才,助力我國(guó)高素質(zhì)AI人才培養(yǎng),為高質(zhì)量的算法工程師打下基礎(chǔ),培養(yǎng)中國(guó)人工智能領(lǐng)域的精英技術(shù)儲(chǔ)備人才;另一方面,希望鼓勵(lì)探索人工智能學(xué)科的應(yīng)用價(jià)值,用AI技術(shù)增強(qiáng)用戶(hù)體驗(yàn)、優(yōu)化產(chǎn)品功能,提升用戶(hù)獲取精準(zhǔn)信息的效率,以技術(shù)落地改善未來(lái)生活。百度公司希望本次比賽能從學(xué)術(shù)與行業(yè)賦能機(jī)器閱讀理解,提升中國(guó)在人工智能領(lǐng)域的影響力。
作為技術(shù)型互聯(lián)網(wǎng)企業(yè),百度多年深耕的AI技術(shù)已處于世界領(lǐng)先水平,在語(yǔ)音識(shí)別、圖像識(shí)別、無(wú)人駕駛、深度學(xué)習(xí)等領(lǐng)域遍地開(kāi)花,同時(shí)逐步將AI技術(shù)融合到各行業(yè)中去,以技術(shù)為驅(qū)動(dòng)改變現(xiàn)實(shí)生活。不久前,在美國(guó)權(quán)威雜志《麻省理工科技評(píng)論》公布的2018年“全球十大突破性技術(shù)”中,百度成為本年度唯一入選的中國(guó)公司,也是史上首個(gè)連續(xù)3年入選該榜單的中國(guó)公司。
未來(lái),百度公司將做出更大努力,開(kāi)放海量?jī)?yōu)質(zhì)的數(shù)據(jù),助力機(jī)器閱讀理解技術(shù)的迅速崛起與落地,降低機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的門(mén)檻,進(jìn)一步培養(yǎng)和挖掘人工智能人才,使 AI 能夠理解人類(lèi)的語(yǔ)言、用自然語(yǔ)言與人類(lèi)交流,讓 AI 更‘懂’人類(lèi)。在此,百度誠(chéng)邀所有AI數(shù)據(jù)集有興趣的技術(shù)人才了解和關(guān)注百度閱讀理解數(shù)據(jù)集。已公開(kāi)的閱讀理解數(shù)據(jù)集可以自由下載https://ai.baidu.com/broad/introduction?dataset=dureader,并通過(guò)平臺(tái)提交測(cè)試集結(jié)果進(jìn)行系統(tǒng)效果測(cè)試。除了閱讀理解數(shù)據(jù)集,百度AI公開(kāi)數(shù)據(jù)集計(jì)劃BROAD(Baidu Research Open-Access Dataset)還發(fā)布了視頻和圖像數(shù)據(jù)集,更多數(shù)據(jù)集參見(jiàn):https://ai.baidu.com/broad 。