【ITBEAR科技資訊】7月26日消息,OpenAI首席執(zhí)行官山姆?阿爾特曼(Sam Altman)今日在回應(yīng)網(wǎng)友提問時(shí)透露,公司計(jì)劃在下周向ChatGPT Plus用戶開放Alpha版本的GPT-4o語(yǔ)音模式(Voice Mode)。這一新功能的推出將為用戶實(shí)現(xiàn)更為流暢、無(wú)縫的語(yǔ)音聊天體驗(yàn)。
據(jù)ITBEAR科技資訊了解,GPT-4o是OpenAI最新推出的一款重要的人工智能模型,其特點(diǎn)在于能夠處理文本、視覺和音頻的端到端全新統(tǒng)一模型。這意味著,所有的輸入和輸出都將由同一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,從而大大提高了處理效率和響應(yīng)速度。首席技術(shù)官穆里?穆拉蒂(Muri Murati)在早前的演講中表示,由于GPT-4o是公司首個(gè)融合了所有這些模式的模型,因此在探索其功能及局限性方面,OpenAI仍處于初步階段。
原定于6月底邀請(qǐng)一小部分ChatGPT Plus用戶測(cè)試GPT-4o語(yǔ)音模式的計(jì)劃,因需進(jìn)一步提高模型的內(nèi)容檢測(cè)和拒絕能力而被推遲。此次,阿爾特曼的表態(tài)意味著這一創(chuàng)新功能即將與公眾見面。
此前公開的信息顯示,相較于GPT-3.5模型的平均語(yǔ)音反饋延遲為2.8秒,以及GPT-4模型的5.4秒延遲,GPT-4o有望極大地縮短這一延遲時(shí)間,使得語(yǔ)音交流更加流暢自然,近乎實(shí)現(xiàn)無(wú)縫對(duì)話。這無(wú)疑將為用戶帶來(lái)全新的交互體驗(yàn),同時(shí)也展示了OpenAI在人工智能領(lǐng)域的持續(xù)創(chuàng)新和領(lǐng)先地位。