近日,國(guó)內(nèi)AI領(lǐng)域迎來了一項(xiàng)重大突破,階躍星辰公司在其官方公眾號(hào)上正式揭曉了其傾力打造的Step-1o千億參數(shù)端到端語(yǔ)音大模型。這一創(chuàng)新成果被譽(yù)為國(guó)內(nèi)首個(gè)達(dá)到千億參數(shù)級(jí)別的端到端語(yǔ)音模型,標(biāo)志著我國(guó)在語(yǔ)音技術(shù)領(lǐng)域邁出了堅(jiān)實(shí)的一步。
傳統(tǒng)語(yǔ)音模型往往采用級(jí)聯(lián)處理方案,這一過程中,用戶的語(yǔ)音信息首先需要被轉(zhuǎn)化為文本,然后再經(jīng)過二次處理轉(zhuǎn)化為語(yǔ)音輸出。這種處理方式不僅效率低下,而且在信息轉(zhuǎn)換過程中容易丟失包括情感在內(nèi)的諸多關(guān)鍵信息,從而導(dǎo)致模型反應(yīng)遲鈍、回答質(zhì)量欠佳、智能水平有限以及情感表達(dá)刻板等問題。相比之下,Step-1o所采用的端到端語(yǔ)音方案則實(shí)現(xiàn)了語(yǔ)音理解和生成的一體化,極大地提升了模型的智商和情商。
Step-1o支持混合形式的輸入和輸出,無論是語(yǔ)音還是文本,都能輕松應(yīng)對(duì)。其快速反應(yīng)和隨時(shí)打斷的特性,使得用戶體驗(yàn)更加流暢。更重要的是,Step-1o能夠深度理解和模仿各種聲音特征,包括音色、韻律、方言以及個(gè)性化的口語(yǔ)表達(dá)習(xí)慣等,為用戶帶來更加自然和真實(shí)的交互體驗(yàn)。
除了具備出色的理解和模仿能力外,Step-1o還通過自學(xué)和模仿不斷提升回復(fù)質(zhì)量。它既能提供解決問題的專業(yè)建議,也能作為高情緒價(jià)值的陪伴者,滿足用戶多樣化的需求。Step-1o還繼承了階躍星辰語(yǔ)言大模型的創(chuàng)作能力,進(jìn)一步豐富了其應(yīng)用場(chǎng)景和可能性。
據(jù)階躍星辰透露,Step-1o即將接入躍問App端,為用戶提供實(shí)時(shí)語(yǔ)音通話服務(wù)。這一舉措無疑將進(jìn)一步提升躍問App的用戶體驗(yàn),同時(shí)也為Step-1o的應(yīng)用推廣打開了新的窗口。