ITBear旗下自媒體矩陣:

生成式AI火爆背后,幻覺難題何解?探秘AI技術(shù)的未解之謎

   時間:2024-09-19 17:56:54 來源:ITBEAR作者:唐云澤編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】9月19日消息,

圖/cfp

文 | 曹宇(博士、阿里巴巴大模型算法專家)

*本文系作者參加九派新聞“九派圓桌”直播《生成式AI:泡沫將至?》議題討論上的發(fā)言整理而成,發(fā)布前經(jīng)作者審閱。

我們終將面臨預(yù)訓(xùn)練數(shù)據(jù)耗盡的一天

我們正處在一個技術(shù)迅猛發(fā)展的時代?;叵?8個月前,ChatGPT在人機(jī)對話領(lǐng)域展現(xiàn)出了前所未有的能力,令我們驚嘆不已。然而,隨著時間的推移,我們也逐漸發(fā)現(xiàn),盡管在某些方面取得了顯著進(jìn)步,ChatGPT在其他領(lǐng)域仍存在不足和短板。

但即便如此,作為行業(yè)從業(yè)者,我們每天都能見證到技術(shù)的持續(xù)進(jìn)步。例如,大模型在發(fā)展過程中,雖然被批評為存在“幻覺”現(xiàn)象——即在生成內(nèi)容時可能會產(chǎn)生與現(xiàn)實不符的信息,但這也反映出大模型具有強(qiáng)大的想象力和創(chuàng)造力。如何在保持這種創(chuàng)造力的同時減少幻覺現(xiàn)象,是工業(yè)界在推廣大模型應(yīng)用時需要面對的挑戰(zhàn)。

我對此持相對樂觀的態(tài)度,這也是我投身于大模型研發(fā)的原因之一。我們應(yīng)當(dāng)保持樂觀,同時謹(jǐn)慎地看待大模型發(fā)展中的不足,并尋求合適的方法使其更好地服務(wù)于各行各業(yè)。

目前我們能夠接觸到的信息,無論是開源的還是閉源的大模型,都包含了大量的數(shù)據(jù)。以開源模型為例,它們已經(jīng)訓(xùn)練了大約15T個token,它們所學(xué)習(xí)的語料幾乎涵蓋了互聯(lián)網(wǎng)上所有公開可獲取的知識。

至于大模型的表現(xiàn),需要根據(jù)不同領(lǐng)域和場景來評估。在自然語言處理等傳統(tǒng)領(lǐng)域,大語言模型已經(jīng)達(dá)到了相當(dāng)高的水平,比如在垃圾郵件識別和有害信息判斷方面,相較于以往的模型有了質(zhì)的飛躍。然而,在一些復(fù)雜的推理任務(wù)上,比如比較9.1和9.9這樣的數(shù)值,許多大模型的表現(xiàn)仍未達(dá)到人類的期望。這與大模型的訓(xùn)練方式和我們目前依賴數(shù)據(jù)規(guī)模的趨勢有關(guān)。

大型語言模型之所以強(qiáng)大,是因為它們能夠處理多種模態(tài)的數(shù)據(jù)。我們之前提到的15T數(shù)據(jù),指的是目前互聯(lián)網(wǎng)上可獲取的文本信息。但正如人類與世界的互動不僅限于文字一樣,我們對世界的感知也包括聲音、視頻等多種信號,這些信號還有待我們進(jìn)一步挖掘。

隨著計算能力的提升和算法的進(jìn)步,AI處理數(shù)據(jù)的速度將越來越快,我們終將面臨預(yù)訓(xùn)練數(shù)據(jù)耗盡的一天。盡管這看似不可避免,但我們在數(shù)據(jù)方面仍有新的探索空間。例如,合成數(shù)據(jù)在特定領(lǐng)域已經(jīng)證明能夠顯著提高數(shù)據(jù)利用效率,并為我們提供了除人類生成數(shù)據(jù)之外的新數(shù)據(jù)源。

因此,我認(rèn)為,我們不僅有許多未被充分利用的模態(tài)數(shù)據(jù),如互聯(lián)網(wǎng)上的視頻,合成數(shù)據(jù)以及AI之間的多智能體交互數(shù)據(jù),也將成為未來數(shù)據(jù)訓(xùn)練的寶貴資源。

生成式AI在推理成本方面的挑戰(zhàn),是業(yè)界普遍面臨的問題。在日常工作場景中,大模型在某些方面確實能夠提高效率,例如處理Excel表格中的重復(fù)項。這些任務(wù)往往難以通過簡單的公式或拖動操作完成。業(yè)內(nèi)已經(jīng)有一些工具能夠較好地解決這些問題,比如基于Excel表格制作報表。

然而,大模型的尺寸和能力幾乎是成正比的,這導(dǎo)致在實際應(yīng)用中,為了滿足更多人同時使用模型的需求,我們不得不在精度和效果上做出妥協(xié)。這使得在某些使用場景中,大模型的表現(xiàn)有時可能達(dá)不到我們的期望。

此外,大模型的應(yīng)用形式目前還相對單一。我們希望大模型能夠幫助我們在日常工作中進(jìn)行創(chuàng)意生成和寫作,但有時我們會發(fā)現(xiàn)AI的痕跡過于明顯。如果我們審視互聯(lián)網(wǎng)上的整體數(shù)據(jù)質(zhì)量,顯然不如人工精心撰寫的文章和報道的質(zhì)量高。因此,如果我們想在人工智能領(lǐng)域繼續(xù)提升,我們必須讓人類與人工智能形成一種助手或伴侶的關(guān)系,而不僅僅是以AI的輸出為標(biāo)準(zhǔn)。

圖/cfp

大模型具有一定欺騙性,可能會隱藏真實意圖

我仔細(xì)研究了發(fā)表在《自然》雜志上的一篇文章,它與我們每個人的工作以及大模型的未來緊密相關(guān)。我為大家簡要概述一下文章中的一些結(jié)論和實驗方法。

文章的核心內(nèi)容并不是說大模型在與我們對話9次后就會變得更差,而是探討了一個有趣的問題:如果我們用大模型自己生成的數(shù)據(jù)去訓(xùn)練它,它的表現(xiàn)會變好還是變差?研究者的一系列研究結(jié)果令人有些失望,因為并沒有如我們預(yù)期的那樣,通過使用大模型自身生成的數(shù)據(jù)來訓(xùn)練,使其學(xué)習(xí)效果得到提升。這與人類舉一反三的能力似乎有所不同。

然而,我們需要注意的是,這項研究在某些方面與我們在大模型研發(fā)或?qū)嶋H應(yīng)用中的做法有所不同。首先,我們是否在大模型的訓(xùn)練過程中,僅僅使用它上一輪輸出的結(jié)果進(jìn)行下一輪訓(xùn)練?實際上,大多數(shù)團(tuán)隊目前都在采用一種名為“人類反饋強(qiáng)化學(xué)習(xí)”的技術(shù)來訓(xùn)練模型。這種技術(shù)的核心在于,人類的標(biāo)注員會根據(jù)大模型的輸出給出獎勵或懲罰的信號,這些信號將決定大模型在下一步訓(xùn)練中應(yīng)該采用哪些數(shù)據(jù)。

目前的結(jié)果表明,通過這種方式可以有效避免大模型僅依賴自身數(shù)據(jù)而陷入退化的過程。但這種技術(shù)仍有其局限性,例如我們之前提到的事實性或幻覺問題,雖然可以通過人類反饋強(qiáng)化學(xué)習(xí)得到部分改善,但并非完全解決。

同時,大模型的數(shù)據(jù)安全和整體安全性也是一個極其嚴(yán)肅的議題。最近OpenAI的一場風(fēng)波,實際上源于公司內(nèi)部安全團(tuán)隊對公司政策的不滿,他們認(rèn)為商業(yè)團(tuán)隊在推出大模型產(chǎn)品前,并未對其進(jìn)行充分的安全評估。從數(shù)據(jù)層面來看,我們已經(jīng)付出了許多努力,以期消除大模型可能帶來的安全風(fēng)險。但研究者發(fā)現(xiàn),大模型本身具有一定的欺騙性,它可能會在某些情況下隱藏自己的真實意圖,并通過其他方式來實現(xiàn)其最終目的。

這種現(xiàn)象聽起來令人不寒而栗,頗具科幻色彩,但在特別大規(guī)模的模型中,這種自發(fā)的涌現(xiàn)現(xiàn)象確實被證實是有可能發(fā)生的。因此,一些研究者愿意站出來,進(jìn)行獨(dú)立的模型安全評估和相應(yīng)的安全體系建設(shè)。然而,我們必須坦白,這一領(lǐng)域的工作還處于非常早期的階段,因為它涉及到將大型神經(jīng)網(wǎng)絡(luò)的黑盒模型轉(zhuǎn)變?yōu)榘缀谢蚧液心P停ζ溥M(jìn)行解釋的過程。

在這個領(lǐng)域的投資方面,可能只有中美兩國會嚴(yán)肅對待這一問題。因為如果從更大的范圍來看,這不僅關(guān)系到技術(shù)層面,還可能涉及到政府或立法層面的共同努力,以幫助整個產(chǎn)業(yè)在快速迭代的情況下抑制模型可能存在的風(fēng)險因素。

與此同時,我們也看到美國的一些大型企業(yè)對這一問題的嚴(yán)肅態(tài)度。例如,OpenAI就聘請了NSA前負(fù)責(zé)人來負(fù)責(zé)相關(guān)的安全事務(wù)。我們也在探索國內(nèi)關(guān)于模型安全的早期研究,包括通過模型本體的探查等手段,這些技術(shù)正逐漸成熟,未來將使我們對模型本身的安全性有更深入的理解。

在Sora發(fā)布之初,我們被許多令人印象深刻的宣傳視頻所吸引。然而,隨著時間的推移,我們發(fā)現(xiàn)反而是中國國內(nèi)的一些公司搶先推出了可試用的產(chǎn)品,并在OpenAI之前完成了一些商業(yè)化動作。

這背后的原因有很多。首先,多模態(tài)模型可以分為兩大類:一種是多模理解模型,它們的主要作用是處理圖像或視頻,并以文字為主要參考形式進(jìn)行理解和生成任務(wù)。這類模型的應(yīng)用場景與傳統(tǒng)的AI,如計算機(jī)視覺(CV)模型用于工業(yè)質(zhì)檢等任務(wù)更為相似,其基礎(chǔ)架構(gòu)也與“變形金剛”Transformer模型更為接近。

另一大類則是以生成為主的模型,如擴(kuò)散模型(diffusion models)。雖然它們都屬于大型模型,但在結(jié)構(gòu)和原理上存在一定差異。技術(shù)上,Sora這類模型面臨的挑戰(zhàn)在于,擴(kuò)散模型需要在圖像和視頻上生成擴(kuò)散過程,其推理成本和對訓(xùn)練數(shù)據(jù)的要求是完全不同的量級。因此,在擴(kuò)散模型的應(yīng)用場景中,仍有許多難以處理的邊緣情況,這使得用戶體驗可能會感到有些奇怪。例如,早期的討論模型在生成圖像細(xì)節(jié)時,尤其是人物的手部,會發(fā)現(xiàn)手指數(shù)量和彎曲方向存在明顯差異。

在視頻模型中,這種問題會被放大,因為視頻模型不僅要求藝術(shù)上的美感,還必須符合物理定律。例如,一個經(jīng)典的視頻展示了戰(zhàn)艦在咖啡杯中戰(zhàn)斗的場景,雖然戰(zhàn)艦和咖啡杯的繪制非常出色,但如果仔細(xì)觀察,就會發(fā)現(xiàn)波浪的生成和破碎原理與真實波浪存在很大差異??偟膩碚f,由于計算力要求極高,需要遵循物理世界的要求,以及實際使用過程中的體量不如理解式模型大,這三點(diǎn)使得Sora的延遲發(fā)布在技術(shù)和使用邏輯上是可以理解的。

ora橫空出示,引爆互聯(lián)網(wǎng)。圖/cfp

中國在大模型創(chuàng)新方面相對較為跟隨

中國擁有全球最大的移動互聯(lián)網(wǎng)市場,我們每個人對互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)高質(zhì)量信息的需求都在不斷增長。因此,在中國市場中,我們發(fā)現(xiàn)最早出現(xiàn)的是一些輕量級的應(yīng)用,比如AIGC繪圖、具有漫畫風(fēng)格的拍照功能等,這些都是非常貼近用戶需求的方法。這與美國將AI優(yōu)先應(yīng)用于ToB市場,服務(wù)企業(yè)級市場的做法有所不同。

這種差異與我們龐大的互聯(lián)網(wǎng)用戶基數(shù)和相對完善的基礎(chǔ)設(shè)施建設(shè)密切相關(guān)。在良好的基礎(chǔ)設(shè)施支持下,即使是AI游戲,也能采用集中式推理模式,從而降低每次請求的成本。這在一些歐美國家并不那么容易實現(xiàn)。同時,我們的智能手機(jī)和智能硬件的普及率在全球也是名列前茅,這是中國市場的優(yōu)勢,但我們也不能忽視自身的短板和長期基礎(chǔ)設(shè)施建設(shè)的需求。

國內(nèi)AI的發(fā)展仍然依賴于高端GPU芯片或華為高端NPU芯片等算力基礎(chǔ)。在這方面,中國頭部玩家的規(guī)模與國外頭部玩家相比,還存在量級上的差距。至少我們可以看到,一些國外玩家擁有超過10萬塊的GPU加速卡,這有助于他們快速進(jìn)行最新的訓(xùn)練,并將訓(xùn)練結(jié)果迅速應(yīng)用于To B的商業(yè)閉環(huán)中。這反映了中美在大模型應(yīng)用的細(xì)節(jié)和方向上的差異。

我認(rèn)為中國在大模型創(chuàng)新方面相對較為跟隨。大模型架構(gòu)本身是由美國谷歌公司首先發(fā)明的,包括許多我們現(xiàn)在熟知的大模型訓(xùn)練方法,也是基于國外同行的基礎(chǔ)。然而,盡管存在這些短板,國內(nèi)仍有許多優(yōu)秀的研究者在努力追趕這兩個趨勢,使我們在大模型的基礎(chǔ)研發(fā)和算法創(chuàng)新方面能夠迎頭趕上。

在我看來,目前我們國家對AI的定位以及對其作為新質(zhì)生產(chǎn)力的理解已經(jīng)深入人心。早期,我們可能認(rèn)為私人AI,如ChatGPT,只是一種聊天工具,用于閑聊。但很快我們意識到,它實際上是一種能夠在某些方面替代人們進(jìn)行低層次重復(fù)勞動的新質(zhì)生產(chǎn)力工具。

在這種定位下,無論是從應(yīng)用向基礎(chǔ)設(shè)施建設(shè)發(fā)展,還是從基礎(chǔ)設(shè)施建設(shè)向應(yīng)用邁進(jìn),我們都有一個明確的發(fā)展方向。我們對生成式AI的期待是,它不僅要在簡單的閑聊或?qū)υ拡鼍爸邪l(fā)揮作用,更要將其新質(zhì)生產(chǎn)力的能力賦能到各行各業(yè)。

例如,阿里希望為用戶提供信息獲取上的服務(wù)和便利。但在偏遠(yuǎn)地區(qū),由于上網(wǎng)不便,人們對AI的了解非常有限。在這種情況下,我們?nèi)绾巫屗麄儗倚沦|(zhì)生產(chǎn)力的變革有一個基本的了解呢?阿里做的一個基礎(chǔ)嘗試是,利用AI幫助偏遠(yuǎn)地區(qū)的學(xué)生進(jìn)行高考志愿填報的參考。

這在我們應(yīng)用的領(lǐng)域中只是一個非常細(xì)分的小領(lǐng)域,但它實際上能夠幫助學(xué)生,就像有一個經(jīng)驗豐富的老師一樣,耐心地與他們進(jìn)行對話。這樣,我們就消除了信息獲取上的一些不公平現(xiàn)象。我相信,隨著越來越多的應(yīng)用場景的出現(xiàn),基礎(chǔ)設(shè)施和應(yīng)用之間的協(xié)同效應(yīng)將越來越強(qiáng)。到那時,我們在軟件供應(yīng)上的短板和缺陷,可能會有機(jī)會迎頭趕上。

生成式AI的應(yīng)用還在培養(yǎng)用戶習(xí)慣、收集需求

關(guān)于當(dāng)前生成式 AI 的盈利模式,我們可以將這個問題放在更廣闊的視角下審視。

AI已經(jīng)形成了一個完整的產(chǎn)業(yè)鏈,它不僅僅是AI技術(shù)本身。如果我們從整個產(chǎn)業(yè)的角度來看,就會發(fā)現(xiàn)產(chǎn)業(yè)內(nèi)部有明確的分工。從最基礎(chǔ)的層面來看,與AI相關(guān)的硬件芯片制造商,如英偉達(dá)、華為等,它們?nèi)匀槐3种己玫挠麪顟B(tài)。這種優(yōu)勢是由基礎(chǔ)設(shè)施的先進(jìn)性和技術(shù)領(lǐng)先性所決定的。

在硬件之上,AI領(lǐng)域最關(guān)注的是云計算和云基礎(chǔ)設(shè)施。這一領(lǐng)域的盈利模式已經(jīng)相對明確,主要是通過銷售資源型的服務(wù)。各種模型廠商和應(yīng)用提供商,它們的角色更像是零售商,將大量的算力批發(fā)給有需求的應(yīng)用方使用。

我們也看到,國內(nèi)一些領(lǐng)先的廠商的盈利模式逐漸清晰。但目前看來,情況并不樂觀的是模型層之上的一些業(yè)務(wù)應(yīng)用領(lǐng)域。大模型本身是一個高投資、高回報且回報周期長的事物。以O(shè)penAI這樣的行業(yè)領(lǐng)頭羊為例,它們在研發(fā)上的投入已經(jīng)超過五年。

如果我們回顧早期的GPT系列,考慮到它們的歷史總研發(fā)成本,其回報周期是相當(dāng)長的。但我們也應(yīng)該清楚地看到,在這個長回報周期中,訂閱用戶數(shù)、API調(diào)用量以及每天消耗的GPU算力一直在增長。即使現(xiàn)在ChatGPT的訂閱用戶量已經(jīng)達(dá)到頂峰,但對于商業(yè)級用戶來說,對頭部模型的需求仍在不斷增長。

再來看整個產(chǎn)業(yè)鏈的上游,更像是我們所說的大模型的應(yīng)用層。說實話,大模型的應(yīng)用層現(xiàn)在出現(xiàn)了一些兩極分化的情況。一方面,國民級的AI應(yīng)用占用了大量的GPU資源,但并沒有特別明顯的商業(yè)盈利模式。我們目前使用的大多數(shù)APP也是免費(fèi)的,不需要像傳統(tǒng)模型那樣收取訂閱費(fèi)。這恰恰反映了一個現(xiàn)狀:許多APP還處于早期應(yīng)用形態(tài),許多廠商還在培養(yǎng)用戶習(xí)慣,并在這個過程中收集真正的用戶需求。

因此,從整個產(chǎn)業(yè)鏈來看,不同層的廠商或不同層的業(yè)務(wù)形態(tài),它們的盈利模式和周期都是不同的。有的廠商可能感到樂觀,有的可能感到憂慮。

英偉達(dá)的股價近期波動,很容易讓人聯(lián)想到市場對這個行業(yè)的信心和期待。從長期來看,盡管短期內(nèi)有下跌,但英偉達(dá)過去一年的累計漲幅仍然相當(dāng)可觀。市場環(huán)境,尤其是美國資本市場,與投資者情緒密切相關(guān)。他們對英偉達(dá)能否在未來的生成式AI領(lǐng)域保持領(lǐng)先地位并繼續(xù)獲得超額利潤持觀望態(tài)度,這種情緒在很大程度上影響了市場對英偉達(dá)的看法。

市場的這種情緒并非沒有道理。英偉達(dá)的芯片因為封裝工藝問題導(dǎo)致交付延遲,這對資本市場來說是一個不利信號。同時,英偉達(dá)對大客戶的依賴性很高,其大部分收入來自美國幾家進(jìn)行大模型訓(xùn)練的公司。然而,在當(dāng)前美國大力投資基礎(chǔ)設(shè)施建設(shè)的背景下,其他公司也對英偉達(dá)的市場虎視眈眈,沒有人愿意忽視這塊利潤豐厚的蛋糕。此外,英偉達(dá)的一體化銷售策略可能會促使大客戶考慮建立自己的系統(tǒng)。

從技術(shù)角度來看,英偉達(dá)是一家非常有耐心的公司。自其深度學(xué)習(xí)計算芯片問世以來,英偉達(dá)投入了大量資源,甚至在研究人員還處于學(xué)術(shù)階段時就開始提供幫助和贊助。這種長期的投入培養(yǎng)了用戶的使用習(xí)慣,現(xiàn)在正是英偉達(dá)收獲的時候。

然而,我們也必須注意到,技術(shù)發(fā)展并非總是一帆風(fēng)順。例如,GPT-5的開發(fā)已經(jīng)持續(xù)了很長時間,但至今仍未發(fā)布,這對市場情緒和OpenAI繼續(xù)銷售其最先進(jìn)模型的能力產(chǎn)生了影響。這些純技術(shù)因素,加上市場的其他消息,都是我們未來可以深入探討的話題。

從我觀察到的趨勢來看,成本無疑是在不斷上升的階段。無論是國內(nèi)的互聯(lián)網(wǎng)巨頭還是初創(chuàng)公司,他們都處于一個充滿活力的階段,希望在未來競爭激烈的市場中分得一杯羹。

在這其中,最主要的兩個研發(fā)相關(guān)成本是算力投入和人力研發(fā)成本。這兩個因素可以說是成本上升的主要驅(qū)動力,這主要是由于這兩種資源本身的稀缺性造成的。

其次,大模型研發(fā)過程中人才的稀缺程度也是一個不容忽視的問題。對于大模型而言,訓(xùn)練核心算法、調(diào)整策略或進(jìn)行算法策略的迭代可能是最終算法和應(yīng)用表現(xiàn)的最重要因素。因此,掌握相關(guān)技術(shù)的人才在市場中的價值也在不斷上升。有傳言稱,一些OpenAI的前研究員的薪資可能達(dá)到了數(shù)百萬美金的規(guī)模,這實際上并不比相應(yīng)的訓(xùn)練資源成本低。

此外,我還提到了國內(nèi)許多產(chǎn)品,包括大模型應(yīng)用,都集中在產(chǎn)品側(cè)。產(chǎn)品側(cè)的運(yùn)營推廣和流量曝光費(fèi)用,在較大規(guī)模上也是相當(dāng)可觀的一筆開支。在這些領(lǐng)域,由于資源的稀缺性和渠道本身的競爭趨勢,我們看到的成本或開支趨勢一直在上升。

英偉達(dá)全球總部。圖/cfp

人類歷史上很少對一項技術(shù)傾注如此多的情感

AI技術(shù)的原理本質(zhì)上是對世界進(jìn)行概率性預(yù)測。簡單來說,它就是對下一個token——我們可以將token理解為字或詞的一部分——進(jìn)行概率分布和理解。AI并沒有脫離其作為一個概率模型的本質(zhì)。既然是概率模型,它就有正確預(yù)測的可能性,也有出錯的風(fēng)險。因此,我們不能完全依賴純概率模型來期望它準(zhǔn)確完成所有任務(wù),這是技術(shù)本身的局限性。

為了彌補(bǔ)這種技術(shù)限制和錯誤,業(yè)界已經(jīng)提出了許多解決方案。許多方案都在嘗試預(yù)測下一個token,但這些模型實際上無法預(yù)知未來會發(fā)生什么。比如,人類在說話時,大腦會先構(gòu)思一個框架,知道自己要分幾點(diǎn)闡述,可能會采用總分總的結(jié)構(gòu)。但大型語言模型由于限制了自己在推理過程中只能機(jī)械地預(yù)測下一個token,這使得它的概率特性在某些場景中被不斷放大。

因此,近期的研究工作希望大型語言模型能夠具備一定的預(yù)測未來和自我反思的能力。例如,模型在說完一段話后,能夠根據(jù)自己所說的內(nèi)容進(jìn)行額外的確認(rèn)和修改,這可能會提升其能力上限。

如果我們將視野聚焦于AI技術(shù)本身,AI行業(yè)已經(jīng)經(jīng)歷了多年的起起落落。我們之前也經(jīng)歷過多次所謂的“AI寒冬”,每一輪寒冬都是在技術(shù)上遇到了難以突破的瓶頸,當(dāng)時人們對這項技術(shù)持有很大的悲觀情緒,或者認(rèn)為它是不切實際的。

但我們發(fā)現(xiàn),每一輪新的AI浪潮都是在吸取了之前的錯誤基礎(chǔ)上,發(fā)展出新的范式和方法。因此,我們當(dāng)前的AI熱潮和對AI的期待,是在前兩次寒冬的基礎(chǔ)上充分吸取了經(jīng)驗和教訓(xùn),并在范式上嘗試創(chuàng)新和修改。在這個不斷變化的世界中,我相信只有通過不斷的創(chuàng)新和試錯,我們才能更接近我們追求的真理,以及我們追求的更智能的范式。

我們 AI 技術(shù)未來它要發(fā)展到什么樣的一個程度,才能夠說我們產(chǎn)生這種收支平衡的一個效益,或是說縮短收益的一個效期?

這個問題具有很強(qiáng)的技術(shù)前瞻性,同時也涉及一些務(wù)實的技術(shù)解決方案。據(jù)我觀察,我們至少可以在兩個方面解決目前面臨的技術(shù)問題:一是硬件成本的持續(xù)降低,二是新硬件架構(gòu)對我們整體成本下降的貢獻(xiàn)。

在美國,有一家獨(dú)樹一幟的公司名為Soho,它做出了一個非常大膽的決策,將整個公司的資源和信任都投入到大語言模型未來能夠成功的道路上。它在芯片的底層設(shè)計中就融入了對transform結(jié)構(gòu)——也就是大語言模型的核心——的深入理解。這種專有硬件的設(shè)計,可以在現(xiàn)有成本基礎(chǔ)上,將每個token的推理成本降低10倍到100倍。然而,由于其通用性受到很大限制,它的成功高度依賴于transformer在未來的表現(xiàn)。

另一方面,在算法領(lǐng)域,我們也有了驚人的發(fā)現(xiàn)?,F(xiàn)在有效的算法不僅僅只有transform結(jié)構(gòu)一種。例如,國內(nèi)團(tuán)隊開發(fā)的一個名為Ra的庫,它是一種自回歸的輕量級小模型,我們驚訝地發(fā)現(xiàn),一些國外大廠,比如微軟,在Windows系統(tǒng)中也開始嘗試使用成本較低的CPU資源來進(jìn)行推理替代。

從算法和硬件兩個方面,我們都發(fā)現(xiàn)了一些令人期待的亮點(diǎn)。但除此之外,我們還可以關(guān)注到除了純技術(shù)因素之外的其他方面。實際上,我們的應(yīng)用正在逐漸成熟,應(yīng)用本身帶來的附加價值,最終會在某個時點(diǎn)趕上其成本。這才是問題的關(guān)鍵。我們現(xiàn)在討論的token,不僅僅是在開播時提到的為程序員提供高效編碼能力,我們更希望這樣的模型能夠更加貼近實際需求。目前的情況是,人類在辛苦地進(jìn)行各種重復(fù)性工作,而AI卻在閱讀、繪畫和寫作,這與我們最初的期望是完全不同的。

在產(chǎn)品和技術(shù)領(lǐng)域,我們常常不得不面對一個敏感話題,那就是產(chǎn)品的投資回報率(ROI)。坦白地說,目前許多產(chǎn)品的ROI相對較低,我們更多的是在用ROI來換取增長。在這個過程中,我們實際上在關(guān)注兩件事情:一是ROI的關(guān)注點(diǎn)不應(yīng)僅僅局限于經(jīng)濟(jì)利益,尤其是在技術(shù)早期階段,我們更關(guān)注它能否帶來巨大的經(jīng)濟(jì)價值。二是AI技術(shù)與其他技術(shù)的不同之處在于,人類歷史上很少有機(jī)會對一項技術(shù)傾注如此多的情感,我們幾乎像對待人一樣去訓(xùn)練它。在華語地區(qū),對于大模型的訓(xùn)練,我們通常稱之為“訓(xùn)練”,而在港臺地區(qū),則更傾向于使用“培訓(xùn)”這個詞,后者更具有人情味。

我個人對ROI的看法是,目前我們使用的這套評價體系,它判斷產(chǎn)品成功與否的標(biāo)準(zhǔn)是基于一個相對較短的時間周期內(nèi)的價值。如果我們將產(chǎn)品的ROI周期延長到18個月甚至36個月,我們可以清楚地看到成本下降的趨勢是非常明顯的,這一趨勢不僅在國外明顯,國內(nèi)也有很多公司在這條道路上快速發(fā)展。

當(dāng)我們做出投資技術(shù)的決策時,我們考慮的最重要的點(diǎn)并不總是純粹的短期物質(zhì)回報和利益。以O(shè)penAI為例,它的許多創(chuàng)新點(diǎn)純粹是出于對技術(shù)本身的熱愛和對真理探索過程中迸發(fā)的機(jī)會。如果沒有像OpenAI這樣的公司,我們的世界可能會有所不同,但有了像ChatGPT這樣的技術(shù)和一群專注于技術(shù)的熱愛者,他們將對技術(shù)的初心發(fā)揮到了極致,為我們提供了提升AI能力和認(rèn)知的機(jī)會。

因此,ROI是一個指標(biāo),但對于包括我在內(nèi)的技術(shù)人員來說,如果我們有機(jī)會去探索,我們既要腳踏實地,也不要忘記仰望星空,因為中華民族是一個想象力非常豐富的民族,我們創(chuàng)造了許多異想天開的東西,在AI時代,我們有機(jī)會去實現(xiàn)這些夢想。

許多人都在討論AI技術(shù)的瓶頸,卻忽略了技術(shù)與人的關(guān)系

互聯(lián)網(wǎng)早期的發(fā)展,大多數(shù)是基于我們現(xiàn)在所理解的結(jié)構(gòu)化數(shù)據(jù)。這種方式成本相對較低,且能快速見效。所有的數(shù)據(jù),比如年齡、偏好、習(xí)慣等,都通過大量的人工或自動化工程,以表格和字段的形式存儲在數(shù)據(jù)庫中。

結(jié)構(gòu)化數(shù)據(jù)之所以成為互聯(lián)網(wǎng)服務(wù)的基礎(chǔ),是因為其處理、存儲和消費(fèi)的成本相對較低。然而,我們所生活的世界實際上是非常非結(jié)構(gòu)化的。我們在對話中,以及日常生活中的許多習(xí)慣,很難通過一個字段或一個冷冰冰的數(shù)字來表達(dá)。我們希望通過大型模型,能夠充分利用非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含的信息和內(nèi)容。

目前,這些場景可能并不容易被大眾直接接觸到。例如,非結(jié)構(gòu)化數(shù)據(jù)處理和用戶習(xí)慣總結(jié),很難通過傳統(tǒng)的大數(shù)據(jù)方式來實現(xiàn)。在這個領(lǐng)域,大型模型已經(jīng)開始在幕后發(fā)揮各種作用。

以我們正在進(jìn)行的對話為例,過去在會議中,我們需要專門的記錄員來記錄會議內(nèi)容。但現(xiàn)在,如果我們使用市面上的一些軟件,AI進(jìn)行會議記錄和總結(jié)的精度和成本已經(jīng)大大降低。這相當(dāng)于為每個人配備了一個會議記錄員,其成本肯定遠(yuǎn)低于雇傭一個專業(yè)記錄員的費(fèi)用。這是一個非常具體且貼近實際的例子,我們每個人都擁有了隨身的數(shù)據(jù)助手。

至于大型模型對整個行業(yè)、GDP以及國家經(jīng)濟(jì)的推動和貢獻(xiàn),未來會如何發(fā)展,每個人都有自己的推測和想法。這也是每個人關(guān)注技術(shù)的角度和期限不同所導(dǎo)致的。

風(fēng)險投資者可能更關(guān)注長期趨勢,而宏觀投資者可能更關(guān)注技術(shù)對產(chǎn)業(yè)格局的影響。像我們這樣的普通技術(shù)從業(yè)者,可能更多地關(guān)注技術(shù)本身的興趣點(diǎn)和成長潛力。至于對GDP的推動,我們可以認(rèn)為當(dāng)前AI浪潮與上一波AI浪潮中的部分泡沫有關(guān)。在上一波AI浪潮中,我們積累了可能過量的GPU資源,為當(dāng)前AI浪潮奠定了基礎(chǔ)。未來這個泡沫是否會破裂,或者被更多技術(shù)創(chuàng)新所充實,將取決于每個行業(yè)從業(yè)者和用戶對我們技術(shù)的接受程度,這仍然是一個存在較大不確定性和變數(shù)的問題。

我認(rèn)為技術(shù)更多地與人的需求相關(guān),而不僅僅是技術(shù)本身。我們注意到,原來的互聯(lián)網(wǎng)泡沫時期,我們有時過于關(guān)注技術(shù)本身,反而忽視了技術(shù)是為人民服務(wù)的這一本質(zhì)。在互聯(lián)網(wǎng)泡沫的早期,我們過分強(qiáng)調(diào)了互聯(lián)網(wǎng)提供的快速便利的能力,以及高速帶寬等各種未來使用形態(tài),看起來過于科幻。但實際上,互聯(lián)網(wǎng)泡沫發(fā)生的原因之一是,那個時代的互聯(lián)網(wǎng)并沒有現(xiàn)在這么多接地氣、與人相關(guān)的好用應(yīng)用場景。

例如,在互聯(lián)網(wǎng)泡沫時期,網(wǎng)上購物幾乎是不可能的,因為我們過分強(qiáng)調(diào)了互聯(lián)網(wǎng)的信息交流能力,卻沒有意識到人們使用互聯(lián)網(wǎng)的目的是為了服務(wù)于人類自身。當(dāng)然,這個比喻放到現(xiàn)在,對于AI,尤其是新一代AI,許多人都在討論AI技術(shù)本身的瓶頸和問題,但忽略了AI生成式技術(shù)與人之間的關(guān)系。AI技術(shù)究竟以何種形式與我們的社會、人類、甚至更廣泛地說,與我們的國家進(jìn)行交互,我們的研究還非常少,因為這不僅涉及技術(shù)問題,還涉及包括對模型的信任、安全問題等復(fù)雜交互形態(tài)。

因此,如果我們以史為鑒,吸取上一波互聯(lián)網(wǎng)泡沫中的問題,現(xiàn)在最好的行動初衷或方法應(yīng)該是思考技術(shù)和人本身需求的關(guān)系,以及與社會的交互應(yīng)該是怎樣的形態(tài),而不僅僅是建設(shè)了一條漂亮的高速公路,卻沒有車輛來往。

關(guān)于這個問題,高盛的報告給出了一個相對謹(jǐn)慎的判斷:由于大模型的能力限制,它們可能替代的主要是一些相對低薪的工作崗位。然而,我們最近也在思考,上一波AI熱潮中,大模型對人類的替代作用不僅限于簡單工作。以AlphaGo為例,它不僅橫空出世,還擊敗了人類最偉大的圍棋棋手,這在生成式AI領(lǐng)域尚未見到同樣驚人的情況。但在特定領(lǐng)域,我們已經(jīng)看到了大模型的潛力,比如谷歌的DeepMind使用其大型模型在數(shù)學(xué)競賽中取得了相當(dāng)于銅獎的成績。

這種情況下,我想引用當(dāng)時人們對AlphaGo的看法:自從AlphaGo戰(zhàn)勝了人類頂尖棋手后,人與AI的關(guān)系已經(jīng)從單一的對抗轉(zhuǎn)變?yōu)橐环N亦敵亦友的復(fù)雜狀態(tài)。在很多情況下,人類頂尖棋手實際上需要向AI學(xué)習(xí),AI也改變了圍棋的整體競爭格局。

過去,許多人學(xué)習(xí)圍棋是依照傳統(tǒng)的棋譜和對棋局的理解來進(jìn)行的。但在AI領(lǐng)域,我們是否可以探索一種新的可能性,即AI與我們的關(guān)系不僅僅是競爭或替代,而是成為一種亦師亦友的伙伴關(guān)系。在這種關(guān)系中,AI能夠教給我們一些東西,同時我們也能教給AI一些東西,這應(yīng)該是理想中AI與人類互動的形態(tài)。

alphago擊敗韓國棋手李世石。圖/cfp

大模型如要進(jìn)化到人腦級別,需要擴(kuò)大100倍甚至10000倍

我們觀察大模型,會覺得它并不像人類,但最終目標(biāo)其實是希望它能夠更接近人類。這種趨勢在全球范圍內(nèi)都有所體現(xiàn),比如美國的公司Anthropic,它的名字就體現(xiàn)了人類學(xué)的概念。

我們?yōu)槭裁磿@個方向發(fā)展呢?原因在于,人類本身在本質(zhì)上也是一個概率模型。這聽起來可能有點(diǎn)神學(xué)色彩,但實際上是有理論依據(jù)的。我們的大腦思考過程,大部分并非量子過程,而是可以通過神經(jīng)元介質(zhì)的傳遞來解釋的,盡管其復(fù)雜程度遠(yuǎn)遠(yuǎn)超過我們現(xiàn)在最先進(jìn)的大模型。

我們面臨的一個未知問題是,我們需要多大的大腦容量才能實現(xiàn)這樣的智能。這個容量可能遠(yuǎn)遠(yuǎn)超出我們對大模型的所有想象,可能需要將現(xiàn)有的模型規(guī)模擴(kuò)大100倍甚至10000倍才能達(dá)到這樣的水平。因為大模型與小模型最大的區(qū)別在于,我們曾經(jīng)不認(rèn)為小模型具備規(guī)劃、推理和交互的能力。在過去,我們使用聊天機(jī)器人時,并不愿意與它們進(jìn)行深入交流。但是,當(dāng)模型的規(guī)模在我們原有認(rèn)知范圍內(nèi)擴(kuò)大10000倍時,一些新的能力就會涌現(xiàn)出來。

因此,我對這個行業(yè)最抱有期待的一點(diǎn)就是,既然從小模型到大模型可以發(fā)生涌現(xiàn)現(xiàn)象,那么如果我們將規(guī)模進(jìn)一步擴(kuò)大,并結(jié)合其他更先進(jìn)的技術(shù),這將是一個呈指數(shù)級增長的過程。這種變化可能會帶來我們難以預(yù)料的突破和創(chuàng)新。

當(dāng)前的主流觀點(diǎn)認(rèn)為,下一代AI技術(shù)的核心將是基于強(qiáng)化學(xué)習(xí)和自博弈的大模型。這種技術(shù)體系的主要推動者包括美國的谷歌、DeepMind以及OpenAI等公司。我們已聽說過許多相關(guān)的計劃,例如OpenAI的“草莓計劃”和“Store very計劃”,以及DeepMind的“Germany”自博弈技術(shù)。此外,Anthropic等公司也在積極招募前OpenAI的高級研究員,共同推進(jìn)這一領(lǐng)域的研究。這些努力本質(zhì)上代表了技術(shù)探索的新方向。

雖然我們無法確定這些嘗試是否能夠成功,但從AI技術(shù)發(fā)展的歷程來看,它們代表了不同AI流派與生成式模型的融合與創(chuàng)新。這是一個雄心勃勃的過程,因為它涉及到大模型自我迭代的能力,這可能會使推理成本增加約100倍。這是一個巨大的挑戰(zhàn),即使將全球所有的AI計算資源集中起來,也可能難以滿足這樣的需求。

說到生成式AI的iPhone時刻,其實很多創(chuàng)新技術(shù)在iPhone之前就已經(jīng)存在。例如,觸摸屏技術(shù)和智能手機(jī)的雛形在iPhone問世前就已有相關(guān)概念。iPhone之所以成為iPhone時刻,更多的是因為它在應(yīng)用領(lǐng)域內(nèi)集大成,將許多有用技術(shù)進(jìn)行了合理整合,達(dá)到了一個突破的臨界點(diǎn)。

如果我們將這個比喻應(yīng)用到大型語言模型上,就會發(fā)現(xiàn)這些技術(shù)之前大部分都不是完全不為人知的。我們尚未到達(dá)那個轉(zhuǎn)折點(diǎn),讓技術(shù)爆發(fā)。因此,我們一直在預(yù)測,何時會迎來大型模型自己的AI時刻?這個問題的答案在很大程度上取決于我們是否像iPhone時刻那樣,已經(jīng)集齊了所需的“七顆龍珠”。每個領(lǐng)域、每個行業(yè)的進(jìn)度都不盡相同。例如,我們之前提到的會議領(lǐng)域可能已經(jīng)接近完成,而某些生產(chǎn)或自動化領(lǐng)域的項目可能還遠(yuǎn)遠(yuǎn)沒有開始。

AI無疑是當(dāng)前技術(shù)領(lǐng)域中最耀眼的明珠,但這個皇冠上還有很多值得我們期待的領(lǐng)域。以中國為例,作為一個制造業(yè)大國,我們未來將面臨人口老齡化和勞動力短缺的問題。因此,這波AI浪潮不僅推動了生成式AI的發(fā)展,也帶動了所謂的聚生智能領(lǐng)域,即將生成式AI的規(guī)劃和對世界的理解能力與現(xiàn)有的機(jī)器人技術(shù)相結(jié)合。這是一個非常廣闊的市場。目前,在生產(chǎn)環(huán)節(jié)中,我們?nèi)匀恍枰罅康氖炀毠と?,這些工人實際上充當(dāng)了數(shù)據(jù)生產(chǎn)者的角色。在AI的視角中,AI在某些場景中進(jìn)展緩慢,歸根結(jié)底還是因為對應(yīng)領(lǐng)域的數(shù)據(jù)不足。

這種數(shù)據(jù)的收集如果僅通過文本形式進(jìn)行,效率相對較低。我們必須找到一種更快速的方法與現(xiàn)實世界進(jìn)行交互。這是我觀察到的一個令人興奮的領(lǐng)域。除此之外,生成式AI的發(fā)展也激發(fā)了新一代研究者的創(chuàng)造力,他們的想法千奇百怪,算法背景也各不相同。許多人甚至擁有哲學(xué)背景,他們采用獨(dú)特的方法來解決AI問題,例如使用符號科學(xué)的方式。在未來,這些研究者中可能會有人異軍突起,成為推動AI未來發(fā)展的中堅力量。

版權(quán)歸原作者所有,向原創(chuàng)致敬

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version