ITBear旗下自媒體矩陣:

谷歌宣布開源Live Transcribe語音識別轉(zhuǎn)文字工具

   時間:2019-08-18 09:28:44 來源:IT之家編輯:星輝 發(fā)表評論無障礙通道

昨日,谷歌在其開源博客中宣布開源 Android語音識別轉(zhuǎn)錄工具——Live Transcribe的語音引擎(Live Transcribe Speech Engine),它旨在將語音或?qū)υ拰崟r轉(zhuǎn)錄為文字,還能夠為聽障人士提供幫助。

Live Transcribe 是谷歌于今年2月推出的一款A(yù)ndroid應(yīng)用程序,它的語音識別由谷歌最先進的Cloud Speech API提供。但是,依賴于云引入了一些復(fù)雜性,不斷變化的網(wǎng)絡(luò)連接、數(shù)據(jù)成本和延遲的魯棒性等等都帶來一些考驗。因此,谷歌把它開源出來,希望開發(fā)人員在已有的基礎(chǔ)上進一步構(gòu)建和開發(fā)。

Cloud Speech API目前無法支持無限的音頻流,團隊采取了一些措施來解決這一難題,例如在達到超時之前關(guān)閉并重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。

無限流媒體音頻帶來了一大挑戰(zhàn)。在許多國家,網(wǎng)絡(luò)數(shù)據(jù)非常昂貴,并且在互聯(lián)網(wǎng)較差的地方,帶寬可能有限。Live Transcribe Speech Engine的團隊對音頻編解碼器進行了大量實驗,并最終在不影響精度的情況下將數(shù)據(jù)使用量減少了10倍。

另外,由于是提供實時語音轉(zhuǎn)錄,轉(zhuǎn)錄出來的文本會隨著語音的輸入不斷發(fā)生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功于它的自定義Opus編碼器。

此外,值得一提的是,Live Transcribe支持超過70種語言,并能夠根據(jù)語音自動識別語種,其中也包括中文。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version