英偉達(dá)在近日的一次展示中,向外界介紹了一種全新的音樂與音頻生成人工智能模型。這款名為Fugatto的模型,全稱為Foundational Generative Audio Transformer Opus 1,它的誕生為音樂、電影及視頻游戲制作領(lǐng)域帶來了全新的可能性。
作為全球頂尖的人工智能系統(tǒng)芯片和軟件供應(yīng)商,英偉達(dá)在人工智能領(lǐng)域的創(chuàng)新從未停歇。然而,F(xiàn)ugatto目前仍處于內(nèi)部研發(fā)階段,英偉達(dá)方面表示,尚未有公開發(fā)布該技術(shù)的具體計(jì)劃。
Fugatto模型的能力十分強(qiáng)大,它不僅能夠根據(jù)文本提示生成音頻或視頻,還能夠接收并修改現(xiàn)有的音頻文件。比如,它可以將一段鋼琴彈奏的旋律轉(zhuǎn)換成人聲演唱的版本,或者改變口語錄音中的口音和情緒表達(dá)。這一特性使得它在音頻編輯和制作領(lǐng)域具有極高的應(yīng)用價(jià)值。
在英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro看來,生成式人工智能將為音樂、視頻游戲等創(chuàng)意產(chǎn)業(yè)帶來革命性的變化。他提到,回顧過去50年的合成音頻發(fā)展,計(jì)算機(jī)和合成器的出現(xiàn)已經(jīng)讓音樂聽起來截然不同。而現(xiàn)在,生成式人工智能的加入,將為普通人提供更多創(chuàng)造事物的機(jī)會(huì)。
然而,隨著人工智能技術(shù)在娛樂行業(yè)的廣泛應(yīng)用,科技界與好萊塢之間的關(guān)系也變得日益緊張。特別是在好萊塢明星斯嘉麗·約翰遜指責(zé)OpenAI模仿她的聲音之后,如何平衡人工智能技術(shù)的創(chuàng)新與版權(quán)保護(hù)之間的關(guān)系,成為了業(yè)界關(guān)注的焦點(diǎn)。英偉達(dá)方面也表示,他們正在謹(jǐn)慎地考慮Fugatto模型的發(fā)布問題,以避免潛在的風(fēng)險(xiǎn)。
據(jù)了解,英偉達(dá)的新模型是在開源數(shù)據(jù)上進(jìn)行訓(xùn)練的。盡管目前尚未確定是否以及何時(shí)公開發(fā)布,但英偉達(dá)方面表示,他們正在積極探討如何確保該技術(shù)的安全使用。Bryan Catanzaro強(qiáng)調(diào),任何生成技術(shù)都存在一定的風(fēng)險(xiǎn),因此他們需要對此保持謹(jǐn)慎。
除了英偉達(dá)之外,Runway等初創(chuàng)公司和meta Platforms等大型公司也在積極探索人工智能技術(shù)在音頻和視頻生成方面的應(yīng)用。這些技術(shù)能夠根據(jù)文本提示生成各種新奇的聲音和畫面,為創(chuàng)意產(chǎn)業(yè)提供了更多的可能性。
然而,隨著這些技術(shù)的不斷發(fā)展,如何防止濫用也成為了業(yè)界亟待解決的問題。例如,用戶可能會(huì)利用這些技術(shù)生成錯(cuò)誤信息或侵犯版權(quán)的內(nèi)容。因此,英偉達(dá)等公司在推進(jìn)技術(shù)創(chuàng)新的同時(shí),也需要積極尋求解決方案,以確保這些技術(shù)的合法、安全和合理使用。