近日,出門問問(股票代碼:02438.HK)宣布其語音大模型“序列猴子”成功獲得上海市生成式人工智能服務(wù)備案認(rèn)證,這一成就標(biāo)志著該公司在多模態(tài)大模型領(lǐng)域的又一重要里程碑。
“序列猴子”語音大模型以出門問問自主研發(fā)的“序列猴子”大模型為基礎(chǔ),結(jié)合了第六代TTS引擎MeetVoice Pro和語音合成標(biāo)記語言(SSML)技術(shù),旨在提供多樣化的文本與語音應(yīng)用功能。該模型不僅具備將文字迅速轉(zhuǎn)換為自然流暢的語音的能力,還包含了聲音克隆、發(fā)音校正以及智能文案創(chuàng)作等創(chuàng)新功能。
其中,聲音克隆功能通過深度學(xué)習(xí)訓(xùn)練語音樣本,生成極具自然感和表現(xiàn)力的合成聲音;發(fā)音校正功能則確保了語音合成的準(zhǔn)確性,特別是對于發(fā)音不準(zhǔn)或多音字的處理;智能文案創(chuàng)作功能則能夠?yàn)橛脩籼峁┒鄻踊奈陌父膶懡ㄗh,極大地提升了文案創(chuàng)作的效率。
出門問問旗下的“魔音工坊”(海外版為DupDub)是“序列猴子”語音大模型的重要應(yīng)用之一。作為一款集文案、配音、剪輯于一體的AI軟件,“魔音工坊”在國內(nèi)外擁有超過800萬注冊用戶,付費(fèi)用戶超過60萬。該軟件不僅具備軟件配音、文字轉(zhuǎn)語音、真人配音等傳統(tǒng)功能,還引入了聲音商店、效率工具、聲音克隆及視頻編輯等創(chuàng)新功能,并擁有聲音克隆、聲音搜索、情感合成/角色遷移以及聲音合成等先進(jìn)技術(shù)。
“魔音工坊”依托“序列猴子”大模型,僅需3-10秒的短音頻即可實(shí)現(xiàn)聲音克隆,并支持跨語言遷移和情感語氣生成。其海外版DupDub還支持多語言生成,包括英語、法語、日語、西班牙語、葡萄牙語、泰語等多種語言。
出門問問自成立以來,一直專注于生成式AI和語音交互技術(shù)的研發(fā),為全球多個國家和地區(qū)提供AI智能硬件、AI政企服務(wù)以及面向創(chuàng)作者的AIGC產(chǎn)品。該公司以“讓AGI觸手可及,讓AI成為每個人的副駕駛”為愿景,致力于打造國際領(lǐng)先的通用大模型,并通過AI技術(shù)、產(chǎn)品及商業(yè)化的三位一體發(fā)展,成為全球AI CoPilot的引領(lǐng)者。
在內(nèi)容創(chuàng)作者領(lǐng)域,出門問問通過AIGC技術(shù)賦能內(nèi)容創(chuàng)作,構(gòu)建了豐富的AIGC CoPilot產(chǎn)品矩陣。除了“魔音工坊”及其海外版“DupDub”外,還包括AI數(shù)字分身“奇妙元”及海外版“LivGen”、企業(yè)AI交互式數(shù)字員工生成平臺“奇妙問”以及可一鍵成片的AI短視頻生成平臺“元創(chuàng)島”等。這些產(chǎn)品共同打造了一站式內(nèi)容創(chuàng)作平臺,幫助創(chuàng)作者實(shí)現(xiàn)高效的內(nèi)容生成。
在應(yīng)用和大模型的垂直整合下,出門問問形成了獨(dú)特的AIGC商業(yè)模式。相較于傳統(tǒng)的ToB和ToC模式,AIGC公司可以形成服務(wù)SMB(中小企業(yè))或Professional Consumer(專業(yè)消費(fèi)者)的新商業(yè)模式。這種商業(yè)模式既避免了傳統(tǒng)ToB的項(xiàng)目制模式,也避免了與ToC互聯(lián)網(wǎng)巨頭的流量競爭。
在“產(chǎn)模結(jié)合”戰(zhàn)略和ToSMB/ToPC商業(yè)模式的指引下,出門問問的AIGC產(chǎn)品已經(jīng)累計服務(wù)了超過1500萬用戶,注冊用戶數(shù)量超過1000萬,其中付費(fèi)用戶數(shù)量達(dá)到約86.5萬。公司成功地從傳統(tǒng)的AI項(xiàng)目制模式轉(zhuǎn)型為可持續(xù)增長的AIGC業(yè)務(wù)模式。