近期,國內(nèi)最大的智能語音技術(shù)提供商科大訊飛成功實現(xiàn)”客家語語音識別技術(shù)”并達到實用水準,目前已率先使用于”訊飛輸入法”打字軟件,為傳統(tǒng)文化保護助力。
客家語現(xiàn)狀如何?
客家語,又稱客話、客家話、客語等,是漢藏語系漢語族內(nèi)的一種聲調(diào)語言(或漢語方言)??图艺Z地區(qū)主要集中在粵東、閩西、贛南交界的贛閩粵客家地區(qū),并被廣泛使用于中國廣東、臺灣、馬來西亞及一些華人社區(qū)。在漢語七大方言中,客家語是最獨特的一支,聯(lián)結(jié)了大陸各省乃至全球各華人地區(qū)的客家人的民系認同。只要會說客家語,堅持客家語不忘祖宗言的特點,就會互相視為老鄉(xiāng)、自家人。但目前在珠三角、臺灣、馬來西亞等地區(qū)客家語受到來自粵語、閩南語、普通話的強勢夾攻,年輕一代客家人已經(jīng)很少使用純正的客家語,以口頭方式流傳的傳統(tǒng)的客家童謠現(xiàn)時已經(jīng)極少人能完整誦唱。有資料顯示,客家語被認為是地球上衰落最快的語言之一。
訊飛輸入法如何保護它?
為此,一直致力于方言保護與語音技術(shù)研發(fā)的科大訊飛肩負起保護和傳承的重任。通過技術(shù)創(chuàng)新成功研發(fā)客家語語音識別引擎,并率先應(yīng)用于普適的訊飛輸入法中。此次訊飛輸入法Android5.2.2108加入客家語語音識別功能,讓客家語在更為廣泛的范圍內(nèi)讓更多的客家人頻繁使用,無疑為客家語的保護做出了實實在在的努力。一經(jīng)上線便得到了客家語的民間保護者們的極大認可。
客家語識別如何實現(xiàn)?
一千個讀者就有一千個哈姆雷特,同樣的一千地域就有一千種口音。中國方言變化萬端,客家語的復(fù)雜程度更是難以言喻。為了讓客家語語音識別達到使用水準,科大訊飛使出了4大絕招:
【海量數(shù)據(jù)】首先,科大訊飛跟國家語委合作對全國各地的口音現(xiàn)象持續(xù)積累了一套基于知識或規(guī)則的資源(包括詞典、特殊詞匯、特殊發(fā)音現(xiàn)象等),特別是訊飛輸入法上線方言識別后,每天的訓練數(shù)據(jù)也是海量的。
【模型訓練】結(jié)合科大訊飛基于PSC數(shù)據(jù)訓練的模型對這些真實數(shù)據(jù)進行分析,以對口音現(xiàn)象產(chǎn)生很好的補充。
【口音分類】在技術(shù)方面根據(jù)全國七大口音方言區(qū)的分布特性,基于覆蓋全國各口音區(qū),總量10萬小時以上的大數(shù)據(jù),基于我們在說話人識別中使用的i-vector聚類算法,形成針對各口音區(qū)的說話人群聚類結(jié)果,再結(jié)合半監(jiān)督訓練算法各自訓練屬于各口音區(qū)的DNN模型。這種針對口音的“尖銳”模型相對于一般的通用模型可以獲得15%-20%的額外提升。
【機器自學習】另一方面科大訊飛進一步充分利用DNN的自學習特色,使用“共享深度神經(jīng)網(wǎng)絡(luò)”的特殊結(jié)構(gòu)將各類方言的數(shù)據(jù)混合在一起進行訓練,利用DNN自動匯聚各類方言的可共享部分,而突出其自身獨特的屬性,進而在識別效果上獲得了顯著提升。
如此,才讓機器能夠聽懂“辰朝日愛落雪(明天要下雪)”、“今晡日系禮拜三嗎(今天是星期三嗎)”、“涯愛轉(zhuǎn)屋下矣(我要回家了)”等地道的客家語。
方言識別的未來會是什么樣?
然而星辰哪能簡簡單單就摘到,目前輸入法內(nèi)置客家語識別以梅州梅縣為主,其他區(qū)域客家語識別還在持續(xù)優(yōu)化以期實現(xiàn)全覆蓋中。