【ITBEAR】作者|林書
2024年,AI在游戲行業(yè)正不斷由表及里,不斷觸及游戲機(jī)制的核心。
大家比較熟知的《沙威瑪傳奇》,更多是用AI賦能制作,降本增效,到后來《1001 night》、《換你來當(dāng)?shù)分校珹I成為游戲的核心玩法。最近,背靠大廠的《永劫無間》《暗區(qū)突圍》里的AI技術(shù)再次往前進(jìn)了一步,要成為玩家在游戲中的“助手”、“隊(duì)友”。
AI作圖 by娛樂資本論
和騰訊、網(wǎng)易做游戲內(nèi)AI隊(duì)友不同,就在上個(gè)月,一款名為“桌崽AI”的桌面陪伴寵物火了起來,在傳統(tǒng)桌寵的外衣下,它真正做到了懂玩家、懂游戲,且在游戲過程中提供了實(shí)實(shí)在在的價(jià)值(查攻略、實(shí)時(shí)陪聊)。從功能性這一點(diǎn)看,頗有點(diǎn)當(dāng)年游戲語音助手YY的意思。
內(nèi)測一個(gè)月,總注冊用戶超過1萬,DAU超過3000,付費(fèi)率超出意料之外。
留存率也挺高,次留63%,7日留29%,30日留22%,平均每日時(shí)長237分鐘。這個(gè)數(shù)據(jù),甚至超過了很多國內(nèi)大廠的大模型產(chǎn)品。
要知道,根據(jù)之前一張盛傳的統(tǒng)計(jì)圖表,國產(chǎn) AI 大模型用戶在30 日后,往往流失嚴(yán)重,從字節(jié)的豆包,到百度的文心一言(現(xiàn)在改名文小言),30日后使用率就都低于 1%。
問題來了,為何AI布局這么多賽道,唯獨(dú)在在游戲賽道如此成功?
原因就在于,游戲佬既對科技感興趣,又對AI助手有強(qiáng)剛需,而這樣的盲區(qū)和痛點(diǎn),正是目前AI在其他領(lǐng)域少有觸及,也需要一定門檻的部分。
AI助手,或許將成為AI領(lǐng)域競爭的下一個(gè)勝負(fù)手。
跨次元的碰撞桌崽AI的制作團(tuán)隊(duì),是國內(nèi)一家名叫臉譜心智的企業(yè),成立于去年6月。
創(chuàng)始人Adam是個(gè)愛玩游戲的95后,本碩畢業(yè)于帝國理工學(xué)院。在創(chuàng)業(yè)前,他在亞馬遜、微軟都工作過,對聊天機(jī)器人頗有研究。
由于創(chuàng)始人及其整個(gè)團(tuán)隊(duì),對游戲都十分熱愛,因此桌崽AI在推出時(shí),就具備了其他同類產(chǎn)品少有的優(yōu)勢——對當(dāng)前各大主流游戲的匹配。
目前,桌崽AI已經(jīng)適配了《黑神話·悟空》、《原神》、《絕區(qū)零》、《鳴潮》等20多款游戲。
只要打開游戲,桌崽AI就會在屏幕上陪著你。玩家可通過文字或語音,與和桌崽進(jìn)行實(shí)時(shí)的互動。
但是,僅僅做到“陪伴”,還遠(yuǎn)不能讓其脫穎而出。
如前所述,其核心亮點(diǎn)在于“懂游戲”、“懂玩家”,這點(diǎn)主要體現(xiàn)在兩方面:其一是,在游戲過程中,桌崽AI不僅能看懂游戲中的畫面、內(nèi)容,并且還能根據(jù)玩家的行為,針對性地進(jìn)行反饋。
例如玩家要是發(fā)揮得好,它就會夸玩家很棒;要是玩家不幸失手,它也會用幽默的語言進(jìn)行調(diào)侃。
第二個(gè)方面就在于,在看懂游戲的基礎(chǔ)上,它還能實(shí)時(shí)提供游戲攻略,在玩家卡關(guān)時(shí)提供幫助。
這樣一來,玩家就再也不用在游戲時(shí),切換回桌面,再打開瀏覽器去各種網(wǎng)站、論壇搜攻略了,桌崽就站旁邊告訴你該怎么打通關(guān)。
除了這些核心功能外,桌崽還能通過生成式AI,根據(jù)玩家的喜好,定制出各種不同的外形、聲音,而這種個(gè)性化的特點(diǎn),又進(jìn)一步增加了玩家的粘性。
然而,這樣的功能,雖然看著簡單,但真正要實(shí)現(xiàn)起來,背后卻有著一定的技術(shù)門檻,
具體來說,這樣的門檻包括了:
多模態(tài)游戲陪玩大模型——讓AI“懂游戲”;
二次元視頻生成大模型——自定義外觀;
語音聲線定制大模型——自定義聲音(語音克隆等);
其中多模態(tài)游戲陪玩大模型,是其與游戲契合的關(guān)鍵所在,按照臉譜心智的介紹,該模型的運(yùn)作機(jī)制,是經(jīng)用戶授權(quán)后,模型把游戲畫面、音效和用戶帶有各種情緒的聲音作為輸入,從而給予和游戲進(jìn)度同頻的個(gè)性化反饋。
但最大的難點(diǎn)就在于,怎樣讓模型在理解各種不同模態(tài)的輸入(畫面、聲音)的同時(shí),還能做到實(shí)時(shí)反饋?
這就涉及到了一個(gè)十分重要的技術(shù)——多模態(tài)融合。
從某種程度上說,這是決定將來大模型在游戲中廣度、深度的一個(gè)重要技術(shù)。
會看、會聽的AI隊(duì)友多模態(tài)技術(shù),之所以在游戲AI的下一階段如此重要,主要是因?yàn)椋谥八薪Y(jié)合了LLM的游戲,例如《1001 night》等作品中,AI的定位與作用,始終都脫離不了“對話”這一單調(diào)的框架。
這種局限,使得AI在游戲中的作用,被限定在了提供對話選項(xiàng)和簡單的互動,而無法深入到其他方面。
而通過對不同模態(tài)的數(shù)據(jù)進(jìn)行特征提取,游戲中的AI助手,可以將原始數(shù)據(jù)轉(zhuǎn)換為可以被模型處理的數(shù)值表示,同時(shí)將異構(gòu)特征投影到公共子空間,使得具有相似語義的多模態(tài)數(shù)據(jù)由相似向量表示,從而讓AI理解了不同模態(tài)的信息。
實(shí)際上,這種多模態(tài)的思路,已經(jīng)愈發(fā)成為了一種AI+游戲的潛在發(fā)展方向。
在今年英偉達(dá)展示的一個(gè)名為G-Assist的游戲助手項(xiàng)目中,這個(gè)由RTX驅(qū)動的AI助手,會通過分析玩家的語音或文本指令,以及游戲界面截圖,提供實(shí)時(shí)攻略等相關(guān)幫助。
這與桌崽AI的某些思路幾乎如出一轍。
G-Assist的核心技術(shù)在于其AI視覺模型,通過集成先進(jìn)的AI視覺模型,G-Assist能夠?qū)崟r(shí)分析游戲窗口中的視覺信息,比如識別屏幕上出現(xiàn)的敵對NPC,或是推薦優(yōu)選武器和材料收集方法。
而除了“會看”之外,這類多模態(tài)融合技術(shù)的另一大挑戰(zhàn),就是怎樣在實(shí)時(shí)的游戲中,以極低的延遲實(shí)現(xiàn)玩家與AI之間的語音互動。
最理想的狀態(tài),是玩家能像平時(shí)說話時(shí)那樣,與AI助手進(jìn)行即時(shí)的交流,這考驗(yàn)的是AI“會聽”的功夫。
在今年5月的開發(fā)者大會上,微軟推出了Copilot+ PC,一款為AI時(shí)代而生的全新PC,其同樣具備了在游戲中充當(dāng)AI助手的能力。
例如,在《我的世界》視頻演示中,通過集合Open AI 的 GPT-4o模型,Copilot能夠?qū)崟r(shí)分析游戲畫面內(nèi)容,并根據(jù)不同的情境、場景,以各種語調(diào)、語氣與玩家交流。
像是當(dāng)玩家成功躲避敵人的追擊后,Copilot就會發(fā)出喘氣聲并祝賀玩家成功找到庇護(hù)處。
這種實(shí)時(shí)的、低延遲的語音交互,背后依托的技術(shù),大致可以分成兩種,一種是傳統(tǒng)的,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的文本轉(zhuǎn)語音(Text-to-Speech )技術(shù),也稱TTS;另一種則是端到端的,GPT-4o所展現(xiàn)的那種實(shí)時(shí)語音技術(shù)。
從技術(shù)力上來說,后者的要求更高,但效果也遠(yuǎn)優(yōu)于前者。
這是因?yàn)?,傳統(tǒng)的TTS合成,通常需要先將文本轉(zhuǎn)換為語音,其輸出往往存在一定的延遲,這樣的差距,在某些競技類、動作類等要求快速反應(yīng)的游戲中,會顯得尤為突出。
更重要的是,由于整合了意圖理解、自然語言處理等環(huán)節(jié),端到端的語音大模型,在做到“如真人般絲滑”的同時(shí),還能根據(jù)不同的情境,實(shí)時(shí)地調(diào)整自身的語氣、語調(diào)。
而傳統(tǒng)TTS要做到這點(diǎn),只能預(yù)先進(jìn)行人為的設(shè)置。
在具備了“會看”、“會聽”的能力后,LLM在游戲中的定位,就不再僅限于單純進(jìn)行對話的NPC,甚至不再局限于能夠?qū)崟r(shí)交互的AI助手,對于某些更有野心的游戲大廠來說,這種多模態(tài)技術(shù)的成熟,還成為了在AI時(shí)代,重新構(gòu)筑自身護(hù)城河的一種新手段。
Agent技術(shù),讓AI勝似真人在打破了“對話”這一框架的局限后,AI助手在游戲中能干什么?
網(wǎng)易在《永劫無間》中給出的答案是:一個(gè)能聽懂語音指令,實(shí)現(xiàn)自動跑圖、搜集物資,配合戰(zhàn)斗的智能化AI隊(duì)友。
6月19日,《永劫無間》手游在“定勝終測”中引入了全新的“游戲Copilot”功能。并依托先進(jìn)的LLM技術(shù),為玩家提供了一個(gè)勝似真人的AI隊(duì)友。
這樣的隊(duì)友,究竟有多智能?
舉例來說,在戰(zhàn)斗中,玩家要是說了句:“給我來點(diǎn)藥”,AI隊(duì)友馬上跑到玩家身邊給予相應(yīng)的道具。
同樣地,在戰(zhàn)斗中,AI隊(duì)友不僅能指哪打哪,也會通過自主判斷戰(zhàn)場局勢優(yōu)化決策,打造和真人隊(duì)友組隊(duì)開黑一致的默契體驗(yàn)。
有時(shí)候,對于一些具體的道具搜尋,AI隊(duì)友也能有求必應(yīng)。
除了基本的戰(zhàn)斗、搜尋指令外,AI隊(duì)友還會主動搭話,聊天,在戰(zhàn)斗之余緩解氛圍,為玩家提供情感陪伴的價(jià)值。
總的來說,這個(gè)AI 隊(duì)友能跑圖,搜物資,戰(zhàn)斗,輔助救援,與玩家實(shí)時(shí)語音聊天,真人隊(duì)友能做到的一切,它也幾乎全做到了。
而要實(shí)現(xiàn)這些,網(wǎng)易靠的正是前面提到的多模態(tài)識別、實(shí)時(shí)語音交互等技術(shù)。
具體來說,這個(gè)AI隊(duì)友,不僅能聽懂玩家的話(語音識別)、觀察戰(zhàn)場局勢(視覺信息輸入)、了解地圖和英雄技能(游戲機(jī)制學(xué)習(xí)),甚至借助諸多高手的大數(shù)據(jù)學(xué)會了如何打好永劫手游。
但除了多模態(tài)之外,要打造這樣智能化的AI隊(duì)友,還有一塊最重要的拼圖:AI Agent 技術(shù)。
這是因?yàn)?,多模態(tài)+LLM的組合,盡管解決了AI隊(duì)友看、聽、理解與交流的問題,但要真正讓其成為游戲中的得力助手,它就必須會親自操作游戲。
這背后靠的正是AI Agent 技術(shù)。
與傳統(tǒng)依靠預(yù)設(shè)程序執(zhí)行固定操作的NPC不同,Agent技術(shù)賦予了AI隊(duì)友更高的靈活性和自主性,這是因?yàn)锳gent技術(shù)讓AI隊(duì)友具備了“自主規(guī)劃”與“自我操作”的能力。
在AI領(lǐng)域,Agent 指的是能夠感知環(huán)境、做出決策并執(zhí)行行動的系統(tǒng),能夠在復(fù)雜多變的環(huán)境中獨(dú)立完成任務(wù)。
實(shí)際上,早在《永劫無間》的AI隊(duì)友出現(xiàn)前,業(yè)內(nèi)早已對 Agent+游戲的方向進(jìn)行了一番探索。比如說網(wǎng)易自身,就有一個(gè)叫網(wǎng)易數(shù)智的AI平臺,提供MMO、SLG等游戲類型的AI對手。
還有在今年3月,Google 的DeepMind就公布了一項(xiàng)關(guān)于新型AI智能體SIMA的開創(chuàng)性研究,旨在讓智能體能夠理解并執(zhí)行多種游戲環(huán)境中的自然語言指令。
讓SIMA在游戲中執(zhí)行操作,只需要兩個(gè)輸入:屏幕上的圖像和用戶提供的自然語言指令。在測試中,SIMA在九種不同的游戲上進(jìn)行了訓(xùn)練和測試,包括《無人深空》和《拆解》,并在其中進(jìn)行了駕駛飛船、挖礦、砍樹等一系列操作。
通過從不同的游戲世界中學(xué)習(xí),SIMA捕捉了圖像、語言與游戲玩法行為之間的聯(lián)系。
這樣的聯(lián)系,來自游戲過程中收集的大量數(shù)據(jù)。比如屏幕上的畫面、音效、文字說明,甚至鼠標(biāo)和鍵盤的操作記錄。
之后,收集的數(shù)據(jù)集被用于訓(xùn)練預(yù)先設(shè)定的模型,以適應(yīng)不同的游戲場景和任務(wù)。
從玩法機(jī)制上來說,AI Agent技術(shù)在游戲領(lǐng)域的介入,幾乎是一種必然,因?yàn)橛刑嗟挠螒颍即嬖谥枰獜?fù)雜規(guī)劃和多個(gè)子任務(wù)才能完成的目標(biāo)了,例如“尋找資源并建立營地”等等。
而這類融合了多模態(tài)、Agent等技術(shù)的游戲嘗試,在發(fā)展到一定階段后,必定會出現(xiàn)某個(gè)成熟的“集大成者”。
例如《暗區(qū)突圍》中的AI隊(duì)友,就是這樣一個(gè)例子。
更高的壁壘,更高的體驗(yàn)在今年8月的科隆游戲展上,騰訊魔方工作室分享了自研的最新AI技術(shù)——F.A.C.U.L.。
這是由魔方工作室聯(lián)合暗區(qū)突圍項(xiàng)目團(tuán)隊(duì),推出的全球首個(gè)語音指揮FPS AI,應(yīng)用了最先進(jìn)的生成式AI技術(shù),包括語音輸入、大語言模型、實(shí)時(shí)語音合成和環(huán)境識別等。
所謂的F.A.C.U.L.,實(shí)際上是一系列核心功能的集合,為的是使AI表現(xiàn)得更像人類隊(duì)友。
具體來說,它包括了:
Complex Command Recognition(復(fù)雜指令識別):這個(gè)功能意味著AI可以理解玩家下達(dá)的復(fù)雜命令,使其能夠識別和執(zhí)行多步指令,適應(yīng)不同的戰(zhàn)術(shù)需求。
Tactic Execution(戰(zhàn)術(shù)執(zhí)行):指AI具備執(zhí)行戰(zhàn)術(shù)操作的能力,比如掩護(hù)、包抄、進(jìn)攻等。AI不再是簡單地跟隨玩家或進(jìn)行基礎(chǔ)攻擊,而是能夠參與到更復(fù)雜的戰(zhàn)術(shù)中。
Object Identification(物體識別):這意味著AI可以識別場景中的特定物體,比如敵人、掩體、道具等。這種識別能力是執(zhí)行任務(wù)和戰(zhàn)術(shù)的基礎(chǔ),幫助AI在復(fù)雜環(huán)境中做出合適的決策。
Human-Like Interaction(類人交互):旨在讓AI在行為上更加接近人類,AI會表現(xiàn)出類似人類的反應(yīng),增強(qiáng)游戲的沉浸感。
雖然與《永劫無間》中的AI隊(duì)友一樣,《暗區(qū)突圍》的F.A.C.U.L.也結(jié)合了多模態(tài)、Agent等技術(shù),但從復(fù)雜度和要求上來說,其卻比前者更上了一個(gè)臺階。
這主要是因?yàn)?,與《永劫無間》相比,《暗區(qū)突圍》中的道具、武器、場景更多,更復(fù)雜,戰(zhàn)斗中需要執(zhí)行的戰(zhàn)術(shù)也更多樣化,更充滿變數(shù)。
例如,“F.A.C.U.L.”將允許 AI 角色識別多大 1.7 萬個(gè)游戲物品,包括建筑物、武器、地表。魔方工作室稱它們甚至能識別“一根草”。
在具體戰(zhàn)斗中,玩家還可以對AI隊(duì)友還可以發(fā)處一系列連續(xù)的、復(fù)雜的指令,而AI隊(duì)友在執(zhí)行這些指令時(shí),不僅能準(zhǔn)確理解其含義,還能知道指令中提到的“沙袋”、“汽車”究竟在哪。
在執(zhí)行指令時(shí),F(xiàn).A.C.U.L.首先會基于多模態(tài)輸入,對環(huán)境進(jìn)行結(jié)構(gòu)化分析,建立一個(gè)包含敵我位置、障礙物、目標(biāo)物體等要素的“局勢地圖”。
之后,當(dāng)玩家發(fā)布“清理房間并守住出口”這樣的復(fù)合命令時(shí),AI隊(duì)友就會通過Agent的任務(wù)分解與多步驟執(zhí)行能力,將其分解為多個(gè)步驟:首先清理敵人,然后搜索物資,最后在出口守衛(wèi)。
這種多階段任務(wù)分解與執(zhí)行能力,是Agent技術(shù)中“自主規(guī)劃”的重要環(huán)節(jié),也是F.A.C.U.L.這類AI高效、靈活地完成任務(wù)的關(guān)鍵。
結(jié)語可以說,《永劫無間》、《暗區(qū)突圍》這樣的例子,揭示了隨著多模態(tài)、Agent等技術(shù)的進(jìn)一步發(fā)展,AI在游戲中的介入程度正不斷加深,其帶來的游戲體驗(yàn)上的提升,也越來越明顯。
但與此同時(shí),AI+游戲的另一大趨勢是:隨著技術(shù)復(fù)雜度不斷提升,“AI游戲”的門檻和壁壘也在一步步變高,有實(shí)力留在牌桌上的選手,也成了資源和資金更加充足的大廠。
然而,從行業(yè)的角度來說,這種不斷提升的門檻,也未嘗不是一件好事。
因?yàn)殡S著大廠逐漸主導(dǎo)AI+游戲領(lǐng)域,AI游戲的制作,會邁入一個(gè)更穩(wěn)健,也更有標(biāo)準(zhǔn)和規(guī)范可循的“工業(yè)化時(shí)代”,其品質(zhì)的提升會更扎實(shí),更可控。而非像AI游戲的初期階段那樣,游戲的爆火與走紅,大多只能靠團(tuán)隊(duì)的“靈感”、稟賦或運(yùn)氣。