關(guān)鍵詞:深度學(xué)習(xí);高性能計(jì)算;數(shù)據(jù)分析;數(shù)據(jù)挖掘;LLM;PPO;NLP;ChatGPT;人工智能;高性能服務(wù)器;HPC;AIGC
隨著人工智能、深度學(xué)習(xí)、高性能計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)挖掘、LLM、PPO、NLP等技術(shù)的快速發(fā)展,ChatGPT得到快速發(fā)展。ChatGPT是OpenAI開發(fā)的大型預(yù)訓(xùn)練語言模型,GPT-3模型的一個(gè)變體,經(jīng)過訓(xùn)練可以在對(duì)話中生成類似人類的文本響應(yīng)。
ChatGPT背后的算法基于Transformer架構(gòu),這是一種使用自注意力機(jī)制處理輸入數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。Transformer架構(gòu)廣泛應(yīng)用于語言翻譯、文本摘要、問答等自然語言處理任務(wù)等領(lǐng)域。ChatGPT可用于創(chuàng)建能與用戶進(jìn)行對(duì)話的聊天機(jī)器人。
一、何為ChatGPT?和過去的人工智能有哪些區(qū)別?
ChatGPT是人工智能革命性的一大進(jìn)步,眾所周知,過去想要尋找某個(gè)問題的答案,可以百度、谷歌等搜索頁面上手動(dòng)搜索各種答案,百度和谷歌只通過爬蟲技術(shù)搜索大量已知問題的相關(guān)答案。但是ChatGPT不一樣,ChatGPT幾乎所有的問題都可以智能地回答,并且保證原創(chuàng)性,答案與以前發(fā)表的任何已知答案完全不同!ChatGPT甚至可以編程、繪畫、寫詩、寫文章!
目前,微軟正在就ChatGPT開發(fā)者OpenAI投資100億美元進(jìn)行談判。如果達(dá)成交易,OpenAI估值將達(dá)到290億美元。與此同時(shí),微軟正在將OpenAI人工智能技術(shù)納入其辦公軟件Office。
據(jù)悉,OpenAI與微軟的合作歷史悠久。2019年,OpenAI在微軟投資10億美元后,隨后兩家公司進(jìn)行了多年的合作,OpenAI開發(fā)微軟Azure云計(jì)算服務(wù)中的人工智能超級(jí)計(jì)算技術(shù)。
二、ChatGPT訓(xùn)練全過程
ChatGPT作為一個(gè)智能對(duì)話系統(tǒng),效果極其震撼。記得上一次引起如此轟動(dòng)的AI技術(shù)是兩年半以前的事了,那時(shí)候人工智能如日中天;多模態(tài)領(lǐng)域是以DaLL E2、Stable Diffusion為代表的Diffusion Model,也就是最近一直流行的AIGC模型。
在整體技術(shù)路線上,ChatGPT引入了“手動(dòng)標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”(RLHF,從人的反饋進(jìn)行強(qiáng)化學(xué)習(xí))來不斷Fine-tune預(yù)訓(xùn)練語言模型。主要目的是讓LLM模型學(xué)會(huì)理解人類命令的含義(比如寫一篇短文生成問題、知識(shí)回答問題、頭腦風(fēng)暴問題等不同類型的命令),讓LLM學(xué)會(huì)判斷對(duì)于給定的提示輸入指令(用戶的問題)什么樣的回答是優(yōu)質(zhì)的(富含信息、內(nèi)容豐富、對(duì)用戶有幫助、無害、不包含歧視信息等多種標(biāo)準(zhǔn))。
在“人工標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”的框架下,具體來說,ChatGPT的訓(xùn)練過程分為以下三個(gè)階段:
1、第一階段
以GPT 3.5本身來說,雖然強(qiáng)大,但是很難理解不同類型的人類不同指令中所包含的不同意圖,也很難判斷生成的內(nèi)容是否是高質(zhì)量的結(jié)果。為讓GPT 3.5初步理解指令中包含的意圖,首先會(huì)隨機(jī)抽取一批測(cè)試用戶提交的prompt(即指令或問題),由專業(yè)的標(biāo)注者對(duì)指定的提示給出高質(zhì)量的回答,然后專業(yè)人員標(biāo)注的數(shù)據(jù)對(duì)GPT 3.5模型進(jìn)行微調(diào)。通過這個(gè)過程,可以認(rèn)為GPT 3.5初步具備了理解人類提示所包含的意圖,并根據(jù)這種意圖給出相對(duì)高質(zhì)量答案的能力。
2、第二階段
在這個(gè)階段里,首先由冷啟動(dòng)后的監(jiān)督策略模型為每個(gè)prompt產(chǎn)生X個(gè)結(jié)果,人工根據(jù)結(jié)果質(zhì)量由高到低排序,以此作為訓(xùn)練數(shù)據(jù),通過pair-wise learning to rank模式來訓(xùn)練回報(bào)模型。對(duì)于學(xué)好的RM模型來說,輸入,輸出結(jié)果的質(zhì)量得分,得分越高說明產(chǎn)生的回答質(zhì)量越高。
3、第三階段
本階段不需要手動(dòng)標(biāo)注數(shù)據(jù),而是使用前一階段學(xué)習(xí)的RM模型,根據(jù)RM評(píng)分結(jié)果更新預(yù)訓(xùn)練模型的參數(shù)。具體來說,首先從用戶提交的prompt中隨機(jī)抽取一批新的命令(指不同于第一、第二階段的新提示,實(shí)際上非常重要,對(duì)于提升LLM模型理解instruct指令的泛化能力很有幫助),由冷啟動(dòng)模型初始化PPO模型的參數(shù)。然后對(duì)于隨機(jī)選取的prompt,用PPO模型生成回答answer,用前一階段訓(xùn)練好的RM模型給出answer質(zhì)量評(píng)估的獎(jiǎng)勵(lì)分?jǐn)?shù),這是RM對(duì)整個(gè)答案(由詞序列組成)給出的整體reward。有了單詞序列的最終回報(bào),每個(gè)單詞可以視為一個(gè)時(shí)間步長(zhǎng),把reward由后往前依次傳遞,由此產(chǎn)生的策略梯度可以更新PPO模型參數(shù)。這是標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)過程,目的是訓(xùn)練LLM產(chǎn)生高reward的答案,也即是產(chǎn)生符合RM標(biāo)準(zhǔn)的高質(zhì)量回答。
如果我們不斷重復(fù)第二和第三階段,很明顯,每次迭代都使LLM模型越來越強(qiáng)大。因?yàn)樵诘诙A段,RM模型的能力通過人工標(biāo)注數(shù)據(jù)來增強(qiáng)的,而在第三階段,增強(qiáng)的RM模型對(duì)新prompt產(chǎn)生的回答進(jìn)行更準(zhǔn)確的評(píng)分,并使用強(qiáng)化學(xué)習(xí)來鼓勵(lì)LLM模型學(xué)習(xí)新的高質(zhì)量?jī)?nèi)容,這類似于使用偽標(biāo)簽來擴(kuò)展高質(zhì)量的訓(xùn)練數(shù)據(jù),所以LLM模型得到進(jìn)一步增強(qiáng)。顯然,第二階段和第三階段是相互促進(jìn)的,這就是為什么不斷迭代會(huì)有不斷增強(qiáng)的效果。
盡管如此,小編認(rèn)為在第三階段采用強(qiáng)化學(xué)習(xí)策略并不一定是ChatGPT模型效果特別好的主要原因。假設(shè)第三階段不采用強(qiáng)化學(xué)習(xí),取而代之的是以下方法:類似于第二階段的做法,對(duì)于一個(gè)新的prompt,冷啟動(dòng)模型可以生成X個(gè)答案,分別由RM模型打分。我們選擇得分最高的答案形成新的訓(xùn)練數(shù)據(jù),并進(jìn)入fine-tune LLM模型。假設(shè)換成這種模式,相信效果可能會(huì)比強(qiáng)化學(xué)習(xí)更好。雖然沒那么精致,但效果不一定差很多。第三階段無論采用哪種技術(shù)模式,本質(zhì)上很可能都是利用第二階段學(xué)會(huì)的RM,起到了擴(kuò)充LLM模型高質(zhì)量訓(xùn)練數(shù)據(jù)的作用。
以上是ChatGPT的訓(xùn)練過程,這是一個(gè)改進(jìn)的instructGPT,改進(jìn)點(diǎn)主要是標(biāo)注數(shù)據(jù)收集方法上的一些差異。其他方面,包括模型結(jié)構(gòu)和訓(xùn)練過程,基本遵循instructGPT??梢灶A(yù)見的是,這種Reinforcement Learning from Human Feedback技術(shù)將會(huì)迅速蔓延到其他內(nèi)容生成方向,比如一個(gè)很容易想到的方向,類似“A machine translation model based on Reinforcement Learning from Human Feedback”等等。
但個(gè)人認(rèn)為在NLP的某個(gè)特定內(nèi)容生成領(lǐng)域采用這種技術(shù)意義不大,因?yàn)镃hatGPT本身可以處理各種類型的任務(wù),基本涵蓋了NLP生成的很多子領(lǐng)域。所以對(duì)于某個(gè)NLP子領(lǐng)域,單獨(dú)采用這種技術(shù)的價(jià)值不大,因?yàn)槠淇尚行钥梢哉J(rèn)為已經(jīng)被ChatGPT驗(yàn)證了。如果將這種技術(shù)應(yīng)用于其他模式的生成,如圖片、音頻、視頻等,可能是更值得探索的方向。也許很快就會(huì)看到類似“A XXX diffusion model based on Reinforcement Learning from Human Feedback”之類的東西。
三、藍(lán)海大腦高性能深度學(xué)習(xí)ChatGPT一體機(jī)
藍(lán)海大腦通過多年的努力,攻克了各項(xiàng)性能指標(biāo)、外觀結(jié)構(gòu)設(shè)計(jì)和產(chǎn)業(yè)化生產(chǎn)等關(guān)鍵技術(shù)問題,成功研制出藍(lán)海大腦高性能深度學(xué)習(xí)ChatGPT一體機(jī),支持快速圖形處理,GPU 智能運(yùn)算,性價(jià)比高,外形美觀,滿足了人工智能企業(yè)對(duì)圖形、視頻等信息的強(qiáng)大計(jì)算處理技術(shù)的需求。
快速、高效、可靠、易于管理的藍(lán)海大腦液冷工作站具備出色的靜音效果和完美的溫控系統(tǒng)。在滿負(fù)載環(huán)境下,噪音控制在 35 分貝左右。借助英偉達(dá) NVIDIA 、英特爾Intel、AMD GPU顯卡可加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理速度,更快地創(chuàng)作精準(zhǔn)的光照渲染效果,提供高速視頻和圖像處理能力,加速AI并帶來更流暢的交互體驗(yàn)。
突破傳統(tǒng)風(fēng)冷散熱模式,采用風(fēng)冷和液冷混合散熱模式——服務(wù)器內(nèi)主要熱源 CPU 利用液冷冷板進(jìn)行冷卻,其余熱源仍采用風(fēng)冷方式進(jìn)行冷卻。通過這種混合制冷方式,可大幅提升服務(wù)器散熱效率,同時(shí),降低主要熱源 CPU 散熱所耗電能,并增強(qiáng)服務(wù)器可靠性;支持VR、AI加速計(jì)算;深受廣大深度學(xué)習(xí)ChatGPT領(lǐng)域工作者的喜愛。
1、主要技術(shù)指標(biāo)
可 靠 性:平均故障間隔時(shí)間MTBF≥15000 h
工作溫度:5~40 ℃
工作濕度:35 %~80 %
存儲(chǔ)溫度:-40~55 ℃
存儲(chǔ)濕度:20 %~90 %
聲 噪:≤35dB
2、產(chǎn)品特點(diǎn)
集中管理:支持多種異構(gòu)硬件平臺(tái)、操作系統(tǒng)和應(yīng)用程序,提供單一系統(tǒng)鏡像,實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)和圖形工作站節(jié)點(diǎn)的集中管理和統(tǒng)一調(diào)度
負(fù)載均衡:提供強(qiáng)大的負(fù)載均衡能力,保證計(jì)算服務(wù)器的任務(wù)分配盡可能均勻,避免機(jī)器忙閑不均的現(xiàn)象。并根據(jù)服務(wù)器的負(fù)載指標(biāo)(如CPU利用率、可用內(nèi)存、IO等),可以采取保護(hù)措施
資源的有效利用:避免計(jì)算任務(wù)之間發(fā)生沖突,導(dǎo)致任務(wù)失敗或計(jì)算時(shí)間延長(zhǎng)
優(yōu)先級(jí)管理:確保在資源不足時(shí),緊急的項(xiàng)目或任務(wù)可以獲得更高的優(yōu)先級(jí),從而更快地啟動(dòng),避免影響設(shè)計(jì)和工程的進(jìn)度
3、客戶收益
實(shí)現(xiàn)統(tǒng)一的用戶登錄、驗(yàn)證、作業(yè)管理、數(shù)據(jù)管理;實(shí)現(xiàn)資源跨部門共享以及利用率最大化
加快企業(yè)的產(chǎn)品研發(fā)進(jìn)度、大幅縮短研發(fā)周期、提升產(chǎn)品的設(shè)計(jì)開發(fā)效率
提供統(tǒng)一平臺(tái),最大化提升在深度學(xué)習(xí)、虛擬圖像、HPC等領(lǐng)域的快速響應(yīng)以及精準(zhǔn)預(yù)測(cè),帶來更流暢的交互體驗(yàn)
提高客戶滿意度,在圖像、視頻、聲音等提供實(shí)時(shí)用戶體驗(yàn)、加快搜索速度
降低總體擁有成本,簡(jiǎn)化工作流程,加速多種工作負(fù)載,提高生產(chǎn)力,促進(jìn)企業(yè)創(chuàng)新