【ITBEAR科技資訊】7月31日消息,OpenAI于當(dāng)?shù)貢r間30日宣布,即日起GPT-4o的語音模式(注:Alpha版本)將對部分ChatGPT Plus用戶開放,計劃在今年秋季將該功能逐步推廣至所有ChatGPT Plus訂閱用戶。
據(jù)ITBEAR科技資訊了解,OpenAI首席技術(shù)官米拉?穆拉蒂(Mira Murati)在早前的演講中闡述了GPT-4o的技術(shù)特點。她指出,GPT-4o是一個全新的跨文本、視覺和音頻的端到端統(tǒng)一模型,其特色在于所有的輸入與輸出都由單一的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)處理。由于這是OpenAI首個融合多種模式的模型,因此在功能和局限性的探索上,他們還處于初步階段。
原計劃于今年6月底邀請小部分ChatGPT Plus用戶測試GPT-4o語音模式的OpenAI,因需要更多時間來完善模型并提升其特定內(nèi)容的檢測和拒絕能力,故官方在6月宣布了測試推遲的消息。
早期信息顯示,相較于GPT-3.5模型2.8秒的平均語音反饋延遲,GPT-4的5.4秒延遲在語音交互上顯得不足。然而,新一代的GPT-4o預(yù)計將大幅降低這一延遲,實現(xiàn)更為流暢的對話體驗。
GPT-4o語音模式的亮點在于其迅速的反應(yīng)速度和高度逼真的聲音。OpenAI更是聲稱,該模式能夠感知語音中的情感語調(diào),包括悲傷、興奮甚至是歌唱。
OpenAI 發(fā)言人林賽?麥卡勒姆(Lindsay McCallum)明確表示:“ChatGPT不會冒充他人的聲音,無論是個人還是公眾人物,且系統(tǒng)會阻止與預(yù)設(shè)聲音不符的輸出?!边@一聲明為GPT-4o在語音交互的真實性和安全性上提供了保障。