【ITBEAR科技資訊】3月3日消息,近日,ChatGPT發(fā)布了基于Whisper大模型的語音轉(zhuǎn)文字API,旨在幫助用戶更加高效地將語音轉(zhuǎn)錄成文字,并支持多種語言的轉(zhuǎn)錄和翻譯。
Whisper API的收費(fèi)非常低廉,每分鐘只要0.006美元,即人民幣約為4分錢,相信會(huì)對(duì)語音相關(guān)企業(yè)產(chǎn)生很大的影響。
據(jù)ITBEAR科技資訊了解,盡管Whisper API支持幾十種語言的轉(zhuǎn)錄和翻譯,但不同語言的轉(zhuǎn)錄準(zhǔn)確率差別很大。Whisper large-v2模型在西班牙語、英語、意大利語、德語等語言的單詞錯(cuò)誤率都能控制在5%以內(nèi),這樣的轉(zhuǎn)錄后只需要用戶簡(jiǎn)單修改就可以得到完美的轉(zhuǎn)錄結(jié)果。
然而,在中文轉(zhuǎn)錄方面,Whisper的錯(cuò)誤率相比其他語言要高得多。v1模型的錯(cuò)誤率為19.6%,v2略微提高到14.7%,這對(duì)于用戶來說確實(shí)是一些麻煩。這一問題可能與中文本身的特點(diǎn)有關(guān),例如中文的同音字和多音字,以及口音和方言的差異。中文語料的覆蓋率相對(duì)較低,也可能對(duì)模型的訓(xùn)練效果造成了影響。