ITBear旗下自媒體矩陣:

中文最佳,哈工大訊飛聯(lián)合發(fā)布全詞覆蓋中文BERT模型

   時間:2019-06-25 15:43:21 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

近日,哈工大訊飛聯(lián)合實驗室發(fā)布了基于全詞覆蓋的中文 BERT 預(yù)訓(xùn)練模型,該模型在多個中文數(shù)據(jù)集上,取得了當(dāng)前中文預(yù)訓(xùn)練模型的最佳水平,部分效果甚至超過了原版 BERT、ERNIE等中文預(yù)訓(xùn)練模型。。

這一新的模型資源,極大地推動了中文自然語言處理的研究發(fā)展,彌補(bǔ)了之前該研究模型在中文自然語言處理上的空缺。之前 ERNIE 更多使用百度百科、貼吧等網(wǎng)絡(luò)數(shù)據(jù),它對非正式文本(例如微博等)建模較好,而BERT-wwm使用了中文維基百科(包括簡體和繁體)數(shù)據(jù)進(jìn)行訓(xùn)練,故此對正式文本建模更有優(yōu)勢,同時BERT-wwm也能更好的處理繁體中文數(shù)據(jù),因為 ERNIE 的詞表中幾乎沒有繁體中文,讓業(yè)界多了一個選擇。

哈工大訊飛聯(lián)合實驗室(HFL)是科大訊飛重點引進(jìn)和布局的核心研發(fā)團(tuán)隊之一,由科大訊飛AI研究院與哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心(HIT-SCIR)在2014年共同創(chuàng)辦。

自哈工大訊飛聯(lián)合實驗室成立,雙方一直進(jìn)行著深入地合作,特別是語言認(rèn)知計算領(lǐng)域,成果顯著,研究涉及閱讀理解、自動閱卷、類人答題、人機(jī)對話、語音識別后處理、社會輿情計算等前瞻課題,相應(yīng)研究成果應(yīng)用于司法,教育等領(lǐng)域。哈工大訊飛聯(lián)合實驗室在近幾年獲得多項世界冠軍,其中包括機(jī)器閱讀理解權(quán)威評測SQuAD、SQuAD 2.0,第五屆中文語法錯誤自動診斷大賽CGED,對話型閱讀理解評測CoQA、QuAC等。

此次發(fā)布的基于全詞覆蓋的中文BERT,不僅表明科大訊飛在自然語言處理技術(shù)上保持業(yè)界領(lǐng)先水平,同時還積極將最新技術(shù)轉(zhuǎn)化應(yīng)用到中文自然語言處理的研究中,與業(yè)界一同推進(jìn)中文自然語言處理的研究與發(fā)展,為中文信息處理做出更多貢獻(xiàn)。

AI蓬勃發(fā)展,人工智能要求的是不僅要“能聽會說”,還要“能理解會思考”,這一技術(shù)跨越,需要大量科學(xué)研究的支持。深層語義理解、邏輯推理決策、自主學(xué)習(xí)進(jìn)化等認(rèn)知智能的關(guān)鍵技術(shù),都是當(dāng)下的研究重點。語音合成技術(shù)、語音識別技術(shù)、手寫識別技術(shù)、自然語言處理技術(shù)、語音測評技術(shù)、聲紋識別技術(shù),這些技術(shù)都展現(xiàn)出了訊飛的超強(qiáng)實力。

科大訊飛一直將“頂天立地”作為企業(yè)的核心使命。“頂天”,即技術(shù)頂天,強(qiáng)調(diào)技術(shù)對AI發(fā)展的的重要性。科大訊飛長期對科研保持著高投入,據(jù)其2018年財報顯示,2018年公司新增相關(guān)研發(fā)費用4.52億元,相關(guān)研發(fā)費用總額達(dá)12.63億元,較上年同期增長55.82%??蒲型度肟芍^相當(dāng)之大,難怪其技術(shù)可以一直保持行業(yè)領(lǐng)先了。

科大訊飛還是目前我國唯一以語音技術(shù)為產(chǎn)業(yè)化方向的“國家863計劃成果產(chǎn)業(yè)化基地”、“國家規(guī)劃布局內(nèi)重點軟件企業(yè)”、“國家高技術(shù)產(chǎn)業(yè)化示范工程”, 曾兩次榮獲“國家科技進(jìn)步獎”及中國信息產(chǎn)業(yè)自主創(chuàng)新榮譽(yù)“信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎”??萍疾棵鞔_依托科大訊飛建設(shè)了認(rèn)知智能國家重點實驗室,這是我國在人工智能高級階段——認(rèn)知智能領(lǐng)域的第一個國家級重點實驗室。

領(lǐng)先的技術(shù)以及對整個人工智能生態(tài)產(chǎn)業(yè)的全面把控上,科大訊飛向人們展現(xiàn)出了它的長遠(yuǎn)眼光。其構(gòu)建的國內(nèi)首個以智能語音和人機(jī)交互為核心的人工智能開放平臺——訊飛開放平臺,并基于該平臺相繼推出訊飛輸入法、訊飛聽見等示范性應(yīng)用,推動與廣大合作伙伴攜手構(gòu)建以訊飛為中心的人工智能產(chǎn)業(yè)生態(tài)。其在智能語音和人工智能核心研究和產(chǎn)業(yè)化方面的突出成績,也得到了社會各界和國內(nèi)外的一致認(rèn)可,被稱為“中國人工智能國家隊”。

對技術(shù)的不斷追求,對科研的不斷精進(jìn),對用戶的細(xì)微關(guān)注,是每一個希望大力發(fā)展AI的企業(yè)都應(yīng)該學(xué)習(xí)的,如今的科大訊飛, 仍在以高速不斷邁進(jìn)和發(fā)展,我們希望在未來,能夠看到科大訊飛一個又一個技術(shù)上的突破,引領(lǐng)中國AI技術(shù)繼續(xù)前行。

附 中文全詞覆蓋BERT官方資源地址https://github.com/ymcui/Chinese-BERT-wwm

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version