在科幻電影《2001:太空漫游》和《流浪地球》中,人工智能形象如HAL 9000和Moss展現(xiàn)了高效、理性且邏輯嚴(yán)密的特性,引發(fā)了人類對(duì)智能機(jī)器的無盡遐想。隨著大語言模型和深度學(xué)習(xí)技術(shù)的快速發(fā)展,人類對(duì)于“超級(jí)AI”的期待愈加強(qiáng)烈。然而,要實(shí)現(xiàn)Moss那樣的“全能助手”,仍需跨越諸多技術(shù)障礙,其中最大的挑戰(zhàn)之一便是如何讓AI迅速理解并應(yīng)對(duì)各種復(fù)雜場(chǎng)景,而不必依賴海量的數(shù)據(jù)。
最近,Karl Friston在arxiv上發(fā)表了一篇題為“Renormalising generative models:From pixels to planning: scale-free active inference”的論文,提出了一種創(chuàng)新的解決方案。通過主動(dòng)推理(Active Inference)構(gòu)建的尺度不變的生成模型(Renormalising Generative Model, RGM),該論文將分類、預(yù)測(cè)與規(guī)劃等問題轉(zhuǎn)化為推理問題,并利用最大化模型證據(jù)的統(tǒng)一框架,有效解決了視覺數(shù)據(jù)、時(shí)序數(shù)據(jù)分類及強(qiáng)化學(xué)習(xí)中的多種挑戰(zhàn)。得益于重整化群技術(shù)的引入,該方法能夠高效處理大規(guī)模數(shù)據(jù)集。
主動(dòng)推理是一種基于當(dāng)前觀察現(xiàn)象預(yù)測(cè)未來的模型。它不僅僅是被動(dòng)等待事件發(fā)生,而是通過主動(dòng)觀察推斷事件的原因。以網(wǎng)球比賽為例,球的飛行軌跡如同一棵不斷展開的“可能樹”,每次擊球都為這棵樹增添新的分支。選手需在眾多可能的路徑中做出選擇,這既取決于自身技術(shù),也受制于對(duì)手策略。主動(dòng)推理中的“自由能”代表了模型對(duì)所處環(huán)境“沒看明白”的程度,通過觀察和主動(dòng)行動(dòng),選手可以降低這種不確定性,做出最佳決策。
RGM通過主動(dòng)推理將分類、預(yù)測(cè)與規(guī)劃等問題轉(zhuǎn)化為推理問題,并通過重整化群技術(shù)在多層次、多尺度上處理數(shù)據(jù)。以圖像為例,模型首先會(huì)將連續(xù)的像素值轉(zhuǎn)化為離散值,然后通過分塊處理和變換,逐層簡(jiǎn)化圖像,直到達(dá)到更高層次。這種多層次處理不僅減輕了計(jì)算負(fù)擔(dān),還能跨時(shí)間、跨空間進(jìn)行運(yùn)算,提高模型效率。
在圖像和視頻處理方面,RGM展現(xiàn)了顯著的效果。通過對(duì)圖像進(jìn)行量化、分塊和奇異值分解,模型實(shí)現(xiàn)了圖像的初步壓縮。重復(fù)這種分塊處理和變換,模型能夠?qū)W習(xí)到圖像的多層次結(jié)構(gòu),并根據(jù)不同層次之間的結(jié)構(gòu)關(guān)系生成圖像。以MNIST數(shù)字分類問題為例,RGM通過主動(dòng)學(xué)習(xí)優(yōu)化模型參數(shù),達(dá)到了先進(jìn)的分類準(zhǔn)確性。
除了圖像,RGM還可應(yīng)用于視頻和音頻數(shù)據(jù)的處理。在視頻生成方面,模型會(huì)考慮時(shí)間的變化,將時(shí)間分成不同的“尺度”,并在每個(gè)時(shí)間層次上進(jìn)行轉(zhuǎn)換,確保幀之間的過渡自然。在音頻處理方面,模型將像素替換為頻率和時(shí)間上的體素,通過連續(xù)小波變換和逆變換處理聲音數(shù)據(jù),實(shí)現(xiàn)聲音的壓縮和復(fù)現(xiàn)。
RGM還可應(yīng)用于規(guī)劃推理,幫助智能體在不確定性下進(jìn)行決策。在主動(dòng)推理框架下,智能體的行動(dòng)基于對(duì)未來結(jié)果的后驗(yàn)預(yù)測(cè),通過貝葉斯規(guī)劃進(jìn)行推理,減少了不確定性。以Atari類游戲?yàn)槔?,RGM可以從隨機(jī)動(dòng)作的結(jié)果序列中自動(dòng)組裝出能夠以專家水平進(jìn)行游戲的智能體。
Friston及其同事的研究表明,基于重整化群的離散狀態(tài)空間模型(RGM)在多種場(chǎng)景下均表現(xiàn)出色。通過最小化預(yù)期自由能,RGM能夠高效處理大規(guī)模數(shù)據(jù)集,并在圖像、視頻、音頻及規(guī)劃推理等領(lǐng)域展現(xiàn)出巨大潛力。未來,隨著技術(shù)的不斷發(fā)展,RGM有望在更多應(yīng)用場(chǎng)景中發(fā)揮重要作用,推動(dòng)人工智能向更高水平邁進(jìn)。