ITBear旗下自媒體矩陣:

訊飛輸入法新增客家語語音識別 助力傳統(tǒng)文化保護

   時間:2015-09-23 16:59:01 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

近期,國內(nèi)最大的智能語音技術(shù)提供商科大訊飛成功實現(xiàn)”客家語語音識別技術(shù)”并達到實用水準,目前已率先使用于”訊飛輸入法”打字軟件,為傳統(tǒng)文化保護助力。

客家語現(xiàn)狀如何?

客家語,又稱客話、客家話、客語等,是漢藏語系漢語族內(nèi)的一種聲調(diào)語言(或漢語方言)??图艺Z地區(qū)主要集中在粵東、閩西、贛南交界的贛閩粵客家地區(qū),并被廣泛使用于中國廣東、臺灣、馬來西亞及一些華人社區(qū)。在漢語七大方言中,客家語是最獨特的一支,聯(lián)結(jié)了大陸各省乃至全球各華人地區(qū)的客家人的民系認同。只要會說客家語,堅持客家語不忘祖宗言的特點,就會互相視為老鄉(xiāng)、自家人。但目前在珠三角、臺灣、馬來西亞等地區(qū)客家語受到來自粵語、閩南語、普通話的強勢夾攻,年輕一代客家人已經(jīng)很少使用純正的客家語,以口頭方式流傳的傳統(tǒng)的客家童謠現(xiàn)時已經(jīng)極少人能完整誦唱。有資料顯示,客家語被認為是地球上衰落最快的語言之一。

訊飛輸入法如何保護它?

為此,一直致力于方言保護與語音技術(shù)研發(fā)的科大訊飛肩負起保護和傳承的重任。通過技術(shù)創(chuàng)新成功研發(fā)客家語語音識別引擎,并率先應(yīng)用于普適的訊飛輸入法中。此次訊飛輸入法Android5.2.2108加入客家語語音識別功能,讓客家語在更為廣泛的范圍內(nèi)讓更多的客家人頻繁使用,無疑為客家語的保護做出了實實在在的努力。一經(jīng)上線便得到了客家語的民間保護者們的極大認可。

客家語識別如何實現(xiàn)?

一千個讀者就有一千個哈姆雷特,同樣的一千地域就有一千種口音。中國方言變化萬端,客家語的復(fù)雜程度更是難以言喻。為了讓客家語語音識別達到使用水準,科大訊飛使出了4大絕招:

【海量數(shù)據(jù)】首先,科大訊飛跟國家語委合作對全國各地的口音現(xiàn)象持續(xù)積累了一套基于知識或規(guī)則的資源(包括詞典、特殊詞匯、特殊發(fā)音現(xiàn)象等),特別是訊飛輸入法上線方言識別后,每天的訓練數(shù)據(jù)也是海量的。

【模型訓練】結(jié)合科大訊飛基于PSC數(shù)據(jù)訓練的模型對這些真實數(shù)據(jù)進行分析,以對口音現(xiàn)象產(chǎn)生很好的補充。

【口音分類】在技術(shù)方面根據(jù)全國七大口音方言區(qū)的分布特性,基于覆蓋全國各口音區(qū),總量10萬小時以上的大數(shù)據(jù),基于我們在說話人識別中使用的i-vector聚類算法,形成針對各口音區(qū)的說話人群聚類結(jié)果,再結(jié)合半監(jiān)督訓練算法各自訓練屬于各口音區(qū)的DNN模型。這種針對口音的“尖銳”模型相對于一般的通用模型可以獲得15%-20%的額外提升。

【機器自學習】另一方面科大訊飛進一步充分利用DNN的自學習特色,使用“共享深度神經(jīng)網(wǎng)絡(luò)”的特殊結(jié)構(gòu)將各類方言的數(shù)據(jù)混合在一起進行訓練,利用DNN自動匯聚各類方言的可共享部分,而突出其自身獨特的屬性,進而在識別效果上獲得了顯著提升。

如此,才讓機器能夠聽懂“辰朝日愛落雪(明天要下雪)”、“今晡日系禮拜三嗎(今天是星期三嗎)”、“涯愛轉(zhuǎn)屋下矣(我要回家了)”等地道的客家語。

方言識別的未來會是什么樣?

然而星辰哪能簡簡單單就摘到,目前輸入法內(nèi)置客家語識別以梅州梅縣為主,其他區(qū)域客家語識別還在持續(xù)優(yōu)化以期實現(xiàn)全覆蓋中。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version