ITBear旗下自媒體矩陣:

基于高性能服務器的ChatGPT模型該如何訓練?

   時間:2023-02-06 10:53:43 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評論無障礙通道

關鍵詞:深度學習;高性能計算;數(shù)據(jù)分析;數(shù)據(jù)挖掘;LLM;PPO;NLP;ChatGPT;人工智能;高性能服務器;HPC;AIGC

隨著人工智能、深度學習、高性能計算、數(shù)據(jù)分析、數(shù)據(jù)挖掘、LLM、PPO、NLP等技術的快速發(fā)展,ChatGPT得到快速發(fā)展。ChatGPT是OpenAI開發(fā)的大型預訓練語言模型,GPT-3模型的一個變體,經(jīng)過訓練可以在對話中生成類似人類的文本響應。

ChatGPT背后的算法基于Transformer架構,這是一種使用自注意力機制處理輸入數(shù)據(jù)的深度神經(jīng)網(wǎng)絡。Transformer架構廣泛應用于語言翻譯、文本摘要、問答等自然語言處理任務等領域。ChatGPT可用于創(chuàng)建能與用戶進行對話的聊天機器人。

一、何為ChatGPT?和過去的人工智能有哪些區(qū)別?

ChatGPT是人工智能革命性的一大進步,眾所周知,過去想要尋找某個問題的答案,可以百度、谷歌等搜索頁面上手動搜索各種答案,百度和谷歌只通過爬蟲技術搜索大量已知問題的相關答案。但是ChatGPT不一樣,ChatGPT幾乎所有的問題都可以智能地回答,并且保證原創(chuàng)性,答案與以前發(fā)表的任何已知答案完全不同!ChatGPT甚至可以編程、繪畫、寫詩、寫文章!

目前,微軟正在就ChatGPT開發(fā)者OpenAI投資100億美元進行談判。如果達成交易,OpenAI估值將達到290億美元。與此同時,微軟正在將OpenAI人工智能技術納入其辦公軟件Office。

據(jù)悉,OpenAI與微軟的合作歷史悠久。2019年,OpenAI在微軟投資10億美元后,隨后兩家公司進行了多年的合作,OpenAI開發(fā)微軟Azure云計算服務中的人工智能超級計算技術。

如圖片無法顯示,請刷新頁面

二、ChatGPT訓練全過程

ChatGPT作為一個智能對話系統(tǒng),效果極其震撼。記得上一次引起如此轟動的AI技術是兩年半以前的事了,那時候人工智能如日中天;多模態(tài)領域是以DaLL E2、Stable Diffusion為代表的Diffusion Model,也就是最近一直流行的AIGC模型。

在整體技術路線上,ChatGPT引入了“手動標注數(shù)據(jù)+強化學習”(RLHF,從人的反饋進行強化學習)來不斷Fine-tune預訓練語言模型。主要目的是讓LLM模型學會理解人類命令的含義(比如寫一篇短文生成問題、知識回答問題、頭腦風暴問題等不同類型的命令),讓LLM學會判斷對于給定的提示輸入指令(用戶的問題)什么樣的回答是優(yōu)質(zhì)的(富含信息、內(nèi)容豐富、對用戶有幫助、無害、不包含歧視信息等多種標準)。

在“人工標注數(shù)據(jù)+強化學習”的框架下,具體來說,ChatGPT的訓練過程分為以下三個階段:

IMG_256

1、第一階段

以GPT 3.5本身來說,雖然強大,但是很難理解不同類型的人類不同指令中所包含的不同意圖,也很難判斷生成的內(nèi)容是否是高質(zhì)量的結果。為讓GPT 3.5初步理解指令中包含的意圖,首先會隨機抽取一批測試用戶提交的prompt(即指令或問題),由專業(yè)的標注者對指定的提示給出高質(zhì)量的回答,然后專業(yè)人員標注的數(shù)據(jù)對GPT 3.5模型進行微調(diào)。通過這個過程,可以認為GPT 3.5初步具備了理解人類提示所包含的意圖,并根據(jù)這種意圖給出相對高質(zhì)量答案的能力。

IMG_257

2、第二階段

在這個階段里,首先由冷啟動后的監(jiān)督策略模型為每個prompt產(chǎn)生X個結果,人工根據(jù)結果質(zhì)量由高到低排序,以此作為訓練數(shù)據(jù),通過pair-wise learning to rank模式來訓練回報模型。對于學好的RM模型來說,輸入,輸出結果的質(zhì)量得分,得分越高說明產(chǎn)生的回答質(zhì)量越高。

IMG_258

3、第三階段

本階段不需要手動標注數(shù)據(jù),而是使用前一階段學習的RM模型,根據(jù)RM評分結果更新預訓練模型的參數(shù)。具體來說,首先從用戶提交的prompt中隨機抽取一批新的命令(指不同于第一、第二階段的新提示,實際上非常重要,對于提升LLM模型理解instruct指令的泛化能力很有幫助),由冷啟動模型初始化PPO模型的參數(shù)。然后對于隨機選取的prompt,用PPO模型生成回答answer,用前一階段訓練好的RM模型給出answer質(zhì)量評估的獎勵分數(shù),這是RM對整個答案(由詞序列組成)給出的整體reward。有了單詞序列的最終回報,每個單詞可以視為一個時間步長,把reward由后往前依次傳遞,由此產(chǎn)生的策略梯度可以更新PPO模型參數(shù)。這是標準的強化學習過程,目的是訓練LLM產(chǎn)生高reward的答案,也即是產(chǎn)生符合RM標準的高質(zhì)量回答。

如果我們不斷重復第二和第三階段,很明顯,每次迭代都使LLM模型越來越強大。因為在第二階段,RM模型的能力通過人工標注數(shù)據(jù)來增強的,而在第三階段,增強的RM模型對新prompt產(chǎn)生的回答進行更準確的評分,并使用強化學習來鼓勵LLM模型學習新的高質(zhì)量內(nèi)容,這類似于使用偽標簽來擴展高質(zhì)量的訓練數(shù)據(jù),所以LLM模型得到進一步增強。顯然,第二階段和第三階段是相互促進的,這就是為什么不斷迭代會有不斷增強的效果。

盡管如此,小編認為在第三階段采用強化學習策略并不一定是ChatGPT模型效果特別好的主要原因。假設第三階段不采用強化學習,取而代之的是以下方法:類似于第二階段的做法,對于一個新的prompt,冷啟動模型可以生成X個答案,分別由RM模型打分。我們選擇得分最高的答案形成新的訓練數(shù)據(jù),并進入fine-tune LLM模型。假設換成這種模式,相信效果可能會比強化學習更好。雖然沒那么精致,但效果不一定差很多。第三階段無論采用哪種技術模式,本質(zhì)上很可能都是利用第二階段學會的RM,起到了擴充LLM模型高質(zhì)量訓練數(shù)據(jù)的作用。

以上是ChatGPT的訓練過程,這是一個改進的instructGPT,改進點主要是標注數(shù)據(jù)收集方法上的一些差異。其他方面,包括模型結構和訓練過程,基本遵循instructGPT??梢灶A見的是,這種Reinforcement Learning from Human Feedback技術將會迅速蔓延到其他內(nèi)容生成方向,比如一個很容易想到的方向,類似“A machine translation model based on Reinforcement Learning from Human Feedback”等等。

但個人認為在NLP的某個特定內(nèi)容生成領域采用這種技術意義不大,因為ChatGPT本身可以處理各種類型的任務,基本涵蓋了NLP生成的很多子領域。所以對于某個NLP子領域,單獨采用這種技術的價值不大,因為其可行性可以認為已經(jīng)被ChatGPT驗證了。如果將這種技術應用于其他模式的生成,如圖片、音頻、視頻等,可能是更值得探索的方向。也許很快就會看到類似“A XXX diffusion model based on Reinforcement Learning from Human Feedback”之類的東西。

三、藍海大腦高性能深度學習ChatGPT一體機

藍海大腦通過多年的努力,攻克了各項性能指標、外觀結構設計和產(chǎn)業(yè)化生產(chǎn)等關鍵技術問題,成功研制出藍海大腦高性能深度學習ChatGPT一體機,支持快速圖形處理,GPU 智能運算,性價比高,外形美觀,滿足了人工智能企業(yè)對圖形、視頻等信息的強大計算處理技術的需求。

快速、高效、可靠、易于管理的藍海大腦液冷工作站具備出色的靜音效果和完美的溫控系統(tǒng)。在滿負載環(huán)境下,噪音控制在 35 分貝左右。借助英偉達 NVIDIA 、英特爾Intel、AMD GPU顯卡可加快神經(jīng)網(wǎng)絡的訓練和推理速度,更快地創(chuàng)作精準的光照渲染效果,提供高速視頻和圖像處理能力,加速AI并帶來更流暢的交互體驗。

突破傳統(tǒng)風冷散熱模式,采用風冷和液冷混合散熱模式——服務器內(nèi)主要熱源 CPU 利用液冷冷板進行冷卻,其余熱源仍采用風冷方式進行冷卻。通過這種混合制冷方式,可大幅提升服務器散熱效率,同時,降低主要熱源 CPU 散熱所耗電能,并增強服務器可靠性;支持VR、AI加速計算;深受廣大深度學習ChatGPT領域工作者的喜愛。

1、主要技術指標

可 靠 性:平均故障間隔時間MTBF≥15000 h

工作溫度:5~40 ℃

工作濕度:35 %~80 %

存儲溫度:-40~55 ℃

存儲濕度:20 %~90 %

聲 噪:≤35dB

2、產(chǎn)品特點

集中管理:支持多種異構硬件平臺、操作系統(tǒng)和應用程序,提供單一系統(tǒng)鏡像,實現(xiàn)計算節(jié)點和圖形工作站節(jié)點的集中管理和統(tǒng)一調(diào)度

負載均衡:提供強大的負載均衡能力,保證計算服務器的任務分配盡可能均勻,避免機器忙閑不均的現(xiàn)象。并根據(jù)服務器的負載指標(如CPU利用率、可用內(nèi)存、IO等),可以采取保護措施

資源的有效利用:避免計算任務之間發(fā)生沖突,導致任務失敗或計算時間延長

優(yōu)先級管理:確保在資源不足時,緊急的項目或任務可以獲得更高的優(yōu)先級,從而更快地啟動,避免影響設計和工程的進度

3、客戶收益

實現(xiàn)統(tǒng)一的用戶登錄、驗證、作業(yè)管理、數(shù)據(jù)管理;實現(xiàn)資源跨部門共享以及利用率最大化

加快企業(yè)的產(chǎn)品研發(fā)進度、大幅縮短研發(fā)周期、提升產(chǎn)品的設計開發(fā)效率

提供統(tǒng)一平臺,最大化提升在深度學習、虛擬圖像、HPC等領域的快速響應以及精準預測,帶來更流暢的交互體驗

提高客戶滿意度,在圖像、視頻、聲音等提供實時用戶體驗、加快搜索速度

降低總體擁有成本,簡化工作流程,加速多種工作負載,提高生產(chǎn)力,促進企業(yè)創(chuàng)新

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version