說起人工智能AI,一般看到的都是上天下地的機器人、計算機視覺、自動駕駛之類,電影電視就更夸張了,動不動就出現(xiàn)AI威脅論這樣的情節(jié)。但實際上,AI應(yīng)用并沒有局限在這些看似“高大上”的領(lǐng)域中,相反的,逐漸成為大多數(shù)人“觸手可及”的便利,比如手機輸入法。日前訊飛輸入法新版已經(jīng)支持中英混合語音輸入,對普通話與七種方言口音的混合語音輸入效果進行了優(yōu)化,“動口不動手”的未來近在眼前。
如今,語音輸入又快又準(zhǔn),似乎沒什么不足。據(jù)最新第三方輸入法報告顯示,用戶對語音輸入除了要求“高效準(zhǔn)確”,還要求“簡單便捷”。譬如,職場上時不時說中文夾雜英文,回家后說普通話自然接上家鄉(xiāng)話!所以上班說事切換到英文識別模式,回家切換到對應(yīng)的方言模式。如果想擁有“雅俗共賞”的溝通效果,那可能就麻煩了,需要在中英、英中、普通話與方言、方言與普通話、英文與方言中循環(huán)往復(fù)地手動切換操作。
眾多周知,訊飛輸入法語音輸入速度1分鐘400字,語音識別準(zhǔn)確率高達98%,支持23種方言語音輸入,日前上線了語音輸入『隨心說』,解決了頻繁切換識別模式的痛點。這個『隨心說』已經(jīng)實現(xiàn)中英混合語音輸入,也優(yōu)化了東北話/天津話/河南話/河北話/山東話/皖北話/四川話七種方言與普通話的混合語音輸入效果。這是怎么做到的?
據(jù)悉,此次訊飛輸入法在深度全序列卷積神經(jīng)網(wǎng)絡(luò)語音識別框架基礎(chǔ)上,將傳統(tǒng)卷積使用擴張卷積代替,讓每個卷積輸出都包含更大范圍的信息,從而使得模型實現(xiàn)對語音長時相關(guān)性的更精確的表達。與此同時,還引入基于長短期記憶網(wǎng)絡(luò)的門控機制使得Hybrid CNN在長時相關(guān)性建模的過程中,能快速過濾噪聲等干擾信息,并加強語境等長時信息,從而在實際應(yīng)用中能夠保障復(fù)雜場景的語音識別效果。
另一個重要的地方在于,Hybrid CNN模型真正實現(xiàn)了端到端的建模,此前的端到端建模方案如CTC等在輸出端已經(jīng)可以做到直接輸出中文漢字,取得了一定的效果提升,但在輸入端仍然采用人工設(shè)計的特征,在特殊場景下難免會損失信息。科大訊飛這次以原始音頻波形直接建模,避免了人工設(shè)計的特征提取過程帶來的信息損失,真正的實現(xiàn)了端到端建模,進一步的提升了識別效果。
從實用性上考慮,Hybrid CNN新一代語音識別框架克服了DFCNN模型參數(shù)量和計算復(fù)雜度大的問題,比較容易實現(xiàn)大規(guī)模并行化運算,在保證識別效果不損失的情況下,系統(tǒng)資源占用規(guī)模和運算量同比下降了60%以上,使得Hybrid CNN可以在手機等設(shè)備上流暢的運行,帶來的好處還包括使本地化語音的識別效果更加接近云端識別效果。
這兩年處處可見AI刷屏,涌現(xiàn)出不少驚人的突破,國家也正式發(fā)布《新一代人工智能的發(fā)展規(guī)劃》,其中關(guān)于AI應(yīng)用占了不少篇幅。現(xiàn)實中也經(jīng)常能看到AI的身影,比較突出的是訊飛輸入法將AI技術(shù)落地,訊飛黑科技不再只是存在科幻情結(jié)中。這次中英等混合語音輸入的『隨心說』有效增進人機互動,讓大眾接觸到、用起來,這是非常好的落地。