ITBear旗下自媒體矩陣:

實時對話更自然,OpenAI 向部分付費訂閱用戶開放 GPT-4o 語音模式

   時間:2024-07-31 13:46:33 來源:ITBEAR編輯:茹茹 發(fā)表評論無障礙通道

【ITBEAR科技資訊】7月31日消息,OpenAI于當(dāng)?shù)貢r間30日宣布,即日起GPT-4o的語音模式(注:Alpha版本)將對部分ChatGPT Plus用戶開放,計劃在今年秋季將該功能逐步推廣至所有ChatGPT Plus訂閱用戶。

據(jù)ITBEAR科技資訊了解,OpenAI首席技術(shù)官米拉?穆拉蒂(Mira Murati)在早前的演講中闡述了GPT-4o的技術(shù)特點。她指出,GPT-4o是一個全新的跨文本、視覺和音頻的端到端統(tǒng)一模型,其特色在于所有的輸入與輸出都由單一的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)處理。由于這是OpenAI首個融合多種模式的模型,因此在功能和局限性的探索上,他們還處于初步階段。

原計劃于今年6月底邀請小部分ChatGPT Plus用戶測試GPT-4o語音模式的OpenAI,因需要更多時間來完善模型并提升其特定內(nèi)容的檢測和拒絕能力,故官方在6月宣布了測試推遲的消息。

早期信息顯示,相較于GPT-3.5模型2.8秒的平均語音反饋延遲,GPT-4的5.4秒延遲在語音交互上顯得不足。然而,新一代的GPT-4o預(yù)計將大幅降低這一延遲,實現(xiàn)更為流暢的對話體驗。

GPT-4o語音模式的亮點在于其迅速的反應(yīng)速度和高度逼真的聲音。OpenAI更是聲稱,該模式能夠感知語音中的情感語調(diào),包括悲傷、興奮甚至是歌唱。

OpenAI 發(fā)言人林賽?麥卡勒姆(Lindsay McCallum)明確表示:“ChatGPT不會冒充他人的聲音,無論是個人還是公眾人物,且系統(tǒng)會阻止與預(yù)設(shè)聲音不符的輸出?!边@一聲明為GPT-4o在語音交互的真實性和安全性上提供了保障。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version