英偉達在近日的一次展示中,向外界介紹了一種全新的音樂與音頻生成人工智能模型。這款名為Fugatto的模型,全稱為Foundational Generative Audio Transformer Opus 1,它的誕生為音樂、電影及視頻游戲制作領(lǐng)域帶來了全新的可能性。
作為全球頂尖的人工智能系統(tǒng)芯片和軟件供應(yīng)商,英偉達在人工智能領(lǐng)域的創(chuàng)新從未停歇。然而,F(xiàn)ugatto目前仍處于內(nèi)部研發(fā)階段,英偉達方面表示,尚未有公開發(fā)布該技術(shù)的具體計劃。
Fugatto模型的能力十分強大,它不僅能夠根據(jù)文本提示生成音頻或視頻,還能夠接收并修改現(xiàn)有的音頻文件。比如,它可以將一段鋼琴彈奏的旋律轉(zhuǎn)換成人聲演唱的版本,或者改變口語錄音中的口音和情緒表達。這一特性使得它在音頻編輯和制作領(lǐng)域具有極高的應(yīng)用價值。
在英偉達應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro看來,生成式人工智能將為音樂、視頻游戲等創(chuàng)意產(chǎn)業(yè)帶來革命性的變化。他提到,回顧過去50年的合成音頻發(fā)展,計算機和合成器的出現(xiàn)已經(jīng)讓音樂聽起來截然不同。而現(xiàn)在,生成式人工智能的加入,將為普通人提供更多創(chuàng)造事物的機會。
然而,隨著人工智能技術(shù)在娛樂行業(yè)的廣泛應(yīng)用,科技界與好萊塢之間的關(guān)系也變得日益緊張。特別是在好萊塢明星斯嘉麗·約翰遜指責(zé)OpenAI模仿她的聲音之后,如何平衡人工智能技術(shù)的創(chuàng)新與版權(quán)保護之間的關(guān)系,成為了業(yè)界關(guān)注的焦點。英偉達方面也表示,他們正在謹慎地考慮Fugatto模型的發(fā)布問題,以避免潛在的風(fēng)險。
據(jù)了解,英偉達的新模型是在開源數(shù)據(jù)上進行訓(xùn)練的。盡管目前尚未確定是否以及何時公開發(fā)布,但英偉達方面表示,他們正在積極探討如何確保該技術(shù)的安全使用。Bryan Catanzaro強調(diào),任何生成技術(shù)都存在一定的風(fēng)險,因此他們需要對此保持謹慎。
除了英偉達之外,Runway等初創(chuàng)公司和meta Platforms等大型公司也在積極探索人工智能技術(shù)在音頻和視頻生成方面的應(yīng)用。這些技術(shù)能夠根據(jù)文本提示生成各種新奇的聲音和畫面,為創(chuàng)意產(chǎn)業(yè)提供了更多的可能性。
然而,隨著這些技術(shù)的不斷發(fā)展,如何防止濫用也成為了業(yè)界亟待解決的問題。例如,用戶可能會利用這些技術(shù)生成錯誤信息或侵犯版權(quán)的內(nèi)容。因此,英偉達等公司在推進技術(shù)創(chuàng)新的同時,也需要積極尋求解決方案,以確保這些技術(shù)的合法、安全和合理使用。