滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

基于高性能服務(wù)器的ChatGPT模型該如何訓(xùn)練？

時(shí)間：2023-02-06 10:53:43 來源：互聯(lián)網(wǎng)編輯：茹茹 發(fā)表評(píng)論無障礙通道

關(guān)鍵詞：深度學(xué)習(xí);高性能計(jì)算;數(shù)據(jù)分析;數(shù)據(jù)挖掘;LLM;PPO;NLP;ChatGPT;人工智能;高性能服務(wù)器;HPC;AIGC

隨著人工智能、深度學(xué)習(xí)、高性能計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)挖掘、LLM、PPO、NLP等技術(shù)的快速發(fā)展，ChatGPT得到快速發(fā)展。ChatGPT是OpenAI開發(fā)的大型預(yù)訓(xùn)練語言模型，GPT-3模型的一個(gè)變體，經(jīng)過訓(xùn)練可以在對(duì)話中生成類似人類的文本響應(yīng)。

ChatGPT背后的算法基于Transformer架構(gòu)，這是一種使用自注意力機(jī)制處理輸入數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。Transformer架構(gòu)廣泛應(yīng)用于語言翻譯、文本摘要、問答等自然語言處理任務(wù)等領(lǐng)域。ChatGPT可用于創(chuàng)建能與用戶進(jìn)行對(duì)話的聊天機(jī)器人。

一、何為ChatGPT？和過去的人工智能有哪些區(qū)別？

ChatGPT是人工智能革命性的一大進(jìn)步，眾所周知，過去想要尋找某個(gè)問題的答案，可以百度、谷歌等搜索頁面上手動(dòng)搜索各種答案，百度和谷歌只通過爬蟲技術(shù)搜索大量已知問題的相關(guān)答案。但是ChatGPT不一樣，ChatGPT幾乎所有的問題都可以智能地回答，并且保證原創(chuàng)性，答案與以前發(fā)表的任何已知答案完全不同!ChatGPT甚至可以編程、繪畫、寫詩、寫文章!

目前，微軟正在就ChatGPT開發(fā)者OpenAI投資100億美元進(jìn)行談判。如果達(dá)成交易，OpenAI估值將達(dá)到290億美元。與此同時(shí)，微軟正在將OpenAI人工智能技術(shù)納入其辦公軟件Office。

據(jù)悉，OpenAI與微軟的合作歷史悠久。2019年，OpenAI在微軟投資10億美元后，隨后兩家公司進(jìn)行了多年的合作，OpenAI開發(fā)微軟Azure云計(jì)算服務(wù)中的人工智能超級(jí)計(jì)算技術(shù)。

二、ChatGPT訓(xùn)練全過程

ChatGPT作為一個(gè)智能對(duì)話系統(tǒng)，效果極其震撼。記得上一次引起如此轟動(dòng)的AI技術(shù)是兩年半以前的事了，那時(shí)候人工智能如日中天;多模態(tài)領(lǐng)域是以DaLL E2、Stable Diffusion為代表的Diffusion Model，也就是最近一直流行的AIGC模型。

在整體技術(shù)路線上，ChatGPT引入了“手動(dòng)標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”(RLHF，從人的反饋進(jìn)行強(qiáng)化學(xué)習(xí))來不斷Fine-tune預(yù)訓(xùn)練語言模型。主要目的是讓LLM模型學(xué)會(huì)理解人類命令的含義(比如寫一篇短文生成問題、知識(shí)回答問題、頭腦風(fēng)暴問題等不同類型的命令)，讓LLM學(xué)會(huì)判斷對(duì)于給定的提示輸入指令(用戶的問題)什么樣的回答是優(yōu)質(zhì)的(富含信息、內(nèi)容豐富、對(duì)用戶有幫助、無害、不包含歧視信息等多種標(biāo)準(zhǔn))。

在“人工標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”的框架下，具體來說，ChatGPT的訓(xùn)練過程分為以下三個(gè)階段:

1、第一階段

以GPT 3.5本身來說，雖然強(qiáng)大，但是很難理解不同類型的人類不同指令中所包含的不同意圖，也很難判斷生成的內(nèi)容是否是高質(zhì)量的結(jié)果。為讓GPT 3.5初步理解指令中包含的意圖，首先會(huì)隨機(jī)抽取一批測(cè)試用戶提交的prompt(即指令或問題)，由專業(yè)的標(biāo)注者對(duì)指定的提示給出高質(zhì)量的回答，然后專業(yè)人員標(biāo)注的數(shù)據(jù)對(duì)GPT 3.5模型進(jìn)行微調(diào)。通過這個(gè)過程，可以認(rèn)為GPT 3.5初步具備了理解人類提示所包含的意圖，并根據(jù)這種意圖給出相對(duì)高質(zhì)量答案的能力。

2、第二階段

在這個(gè)階段里，首先由冷啟動(dòng)后的監(jiān)督策略模型為每個(gè)prompt產(chǎn)生X個(gè)結(jié)果，人工根據(jù)結(jié)果質(zhì)量由高到低排序，以此作為訓(xùn)練數(shù)據(jù)，通過pair-wise learning to rank模式來訓(xùn)練回報(bào)模型。對(duì)于學(xué)好的RM模型來說，輸入，輸出結(jié)果的質(zhì)量得分，得分越高說明產(chǎn)生的回答質(zhì)量越高。

3、第三階段

本階段不需要手動(dòng)標(biāo)注數(shù)據(jù)，而是使用前一階段學(xué)習(xí)的RM模型，根據(jù)RM評(píng)分結(jié)果更新預(yù)訓(xùn)練模型的參數(shù)。具體來說，首先從用戶提交的prompt中隨機(jī)抽取一批新的命令(指不同于第一、第二階段的新提示，實(shí)際上非常重要，對(duì)于提升LLM模型理解instruct指令的泛化能力很有幫助)，由冷啟動(dòng)模型初始化PPO模型的參數(shù)。然后對(duì)于隨機(jī)選取的prompt，用PPO模型生成回答answer，用前一階段訓(xùn)練好的RM模型給出answer質(zhì)量評(píng)估的獎(jiǎng)勵(lì)分?jǐn)?shù)，這是RM對(duì)整個(gè)答案(由詞序列組成)給出的整體reward。有了單詞序列的最終回報(bào)，每個(gè)單詞可以視為一個(gè)時(shí)間步長(zhǎng)，把reward由后往前依次傳遞，由此產(chǎn)生的策略梯度可以更新PPO模型參數(shù)。這是標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)過程，目的是訓(xùn)練LLM產(chǎn)生高reward的答案，也即是產(chǎn)生符合RM標(biāo)準(zhǔn)的高質(zhì)量回答。

如果我們不斷重復(fù)第二和第三階段，很明顯，每次迭代都使LLM模型越來越強(qiáng)大。因?yàn)樵诘诙A段，RM模型的能力通過人工標(biāo)注數(shù)據(jù)來增強(qiáng)的，而在第三階段，增強(qiáng)的RM模型對(duì)新prompt產(chǎn)生的回答進(jìn)行更準(zhǔn)確的評(píng)分，并使用強(qiáng)化學(xué)習(xí)來鼓勵(lì)LLM模型學(xué)習(xí)新的高質(zhì)量?jī)?nèi)容，這類似于使用偽標(biāo)簽來擴(kuò)展高質(zhì)量的訓(xùn)練數(shù)據(jù)，所以LLM模型得到進(jìn)一步增強(qiáng)。顯然，第二階段和第三階段是相互促進(jìn)的，這就是為什么不斷迭代會(huì)有不斷增強(qiáng)的效果。

盡管如此，小編認(rèn)為在第三階段采用強(qiáng)化學(xué)習(xí)策略并不一定是ChatGPT模型效果特別好的主要原因。假設(shè)第三階段不采用強(qiáng)化學(xué)習(xí)，取而代之的是以下方法：類似于第二階段的做法，對(duì)于一個(gè)新的prompt，冷啟動(dòng)模型可以生成X個(gè)答案，分別由RM模型打分。我們選擇得分最高的答案形成新的訓(xùn)練數(shù)據(jù)，并進(jìn)入fine-tune LLM模型。假設(shè)換成這種模式，相信效果可能會(huì)比強(qiáng)化學(xué)習(xí)更好。雖然沒那么精致，但效果不一定差很多。第三階段無論采用哪種技術(shù)模式，本質(zhì)上很可能都是利用第二階段學(xué)會(huì)的RM，起到了擴(kuò)充LLM模型高質(zhì)量訓(xùn)練數(shù)據(jù)的作用。

以上是ChatGPT的訓(xùn)練過程，這是一個(gè)改進(jìn)的instructGPT，改進(jìn)點(diǎn)主要是標(biāo)注數(shù)據(jù)收集方法上的一些差異。其他方面，包括模型結(jié)構(gòu)和訓(xùn)練過程，基本遵循instructGPT?？梢灶A(yù)見的是，這種Reinforcement Learning from Human Feedback技術(shù)將會(huì)迅速蔓延到其他內(nèi)容生成方向，比如一個(gè)很容易想到的方向，類似“A machine translation model based on Reinforcement Learning from Human Feedback”等等。

但個(gè)人認(rèn)為在NLP的某個(gè)特定內(nèi)容生成領(lǐng)域采用這種技術(shù)意義不大，因?yàn)镃hatGPT本身可以處理各種類型的任務(wù)，基本涵蓋了NLP生成的很多子領(lǐng)域。所以對(duì)于某個(gè)NLP子領(lǐng)域，單獨(dú)采用這種技術(shù)的價(jià)值不大，因?yàn)槠淇尚行钥梢哉J(rèn)為已經(jīng)被ChatGPT驗(yàn)證了。如果將這種技術(shù)應(yīng)用于其他模式的生成，如圖片、音頻、視頻等，可能是更值得探索的方向。也許很快就會(huì)看到類似“A XXX diffusion model based on Reinforcement Learning from Human Feedback”之類的東西。

三、藍(lán)海大腦高性能深度學(xué)習(xí)ChatGPT一體機(jī)

藍(lán)海大腦通過多年的努力，攻克了各項(xiàng)性能指標(biāo)、外觀結(jié)構(gòu)設(shè)計(jì)和產(chǎn)業(yè)化生產(chǎn)等關(guān)鍵技術(shù)問題，成功研制出藍(lán)海大腦高性能深度學(xué)習(xí)ChatGPT一體機(jī)，支持快速圖形處理，GPU 智能運(yùn)算，性價(jià)比高，外形美觀，滿足了人工智能企業(yè)對(duì)圖形、視頻等信息的強(qiáng)大計(jì)算處理技術(shù)的需求。

快速、高效、可靠、易于管理的藍(lán)海大腦液冷工作站具備出色的靜音效果和完美的溫控系統(tǒng)。在滿負(fù)載環(huán)境下，噪音控制在 35 分貝左右。借助英偉達(dá) NVIDIA 、英特爾Intel、AMD GPU顯卡可加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理速度，更快地創(chuàng)作精準(zhǔn)的光照渲染效果，提供高速視頻和圖像處理能力，加速AI并帶來更流暢的交互體驗(yàn)。

突破傳統(tǒng)風(fēng)冷散熱模式，采用風(fēng)冷和液冷混合散熱模式——服務(wù)器內(nèi)主要熱源 CPU 利用液冷冷板進(jìn)行冷卻，其余熱源仍采用風(fēng)冷方式進(jìn)行冷卻。通過這種混合制冷方式，可大幅提升服務(wù)器散熱效率，同時(shí)，降低主要熱源 CPU 散熱所耗電能，并增強(qiáng)服務(wù)器可靠性;支持VR、AI加速計(jì)算;深受廣大深度學(xué)習(xí)ChatGPT領(lǐng)域工作者的喜愛。

1、主要技術(shù)指標(biāo)

可靠性：平均故障間隔時(shí)間MTBF≥15000 h

工作溫度：5～40 ℃

工作濕度：35 %～80 %

存儲(chǔ)溫度：-40～55 ℃

存儲(chǔ)濕度：20 %～90 %

聲噪：≤35dB

2、產(chǎn)品特點(diǎn)

集中管理：支持多種異構(gòu)硬件平臺(tái)、操作系統(tǒng)和應(yīng)用程序，提供單一系統(tǒng)鏡像，實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)和圖形工作站節(jié)點(diǎn)的集中管理和統(tǒng)一調(diào)度

負(fù)載均衡：提供強(qiáng)大的負(fù)載均衡能力，保證計(jì)算服務(wù)器的任務(wù)分配盡可能均勻，避免機(jī)器忙閑不均的現(xiàn)象。并根據(jù)服務(wù)器的負(fù)載指標(biāo)(如CPU利用率、可用內(nèi)存、IO等)，可以采取保護(hù)措施

資源的有效利用：避免計(jì)算任務(wù)之間發(fā)生沖突，導(dǎo)致任務(wù)失敗或計(jì)算時(shí)間延長(zhǎng)

優(yōu)先級(jí)管理：確保在資源不足時(shí)，緊急的項(xiàng)目或任務(wù)可以獲得更高的優(yōu)先級(jí)，從而更快地啟動(dòng)，避免影響設(shè)計(jì)和工程的進(jìn)度

3、客戶收益

實(shí)現(xiàn)統(tǒng)一的用戶登錄、驗(yàn)證、作業(yè)管理、數(shù)據(jù)管理;實(shí)現(xiàn)資源跨部門共享以及利用率最大化

加快企業(yè)的產(chǎn)品研發(fā)進(jìn)度、大幅縮短研發(fā)周期、提升產(chǎn)品的設(shè)計(jì)開發(fā)效率

提供統(tǒng)一平臺(tái)，最大化提升在深度學(xué)習(xí)、虛擬圖像、HPC等領(lǐng)域的快速響應(yīng)以及精準(zhǔn)預(yù)測(cè)，帶來更流暢的交互體驗(yàn)

提高客戶滿意度，在圖像、視頻、聲音等提供實(shí)時(shí)用戶體驗(yàn)、加快搜索速度

降低總體擁有成本，簡(jiǎn)化工作流程，加速多種工作負(fù)載，提高生產(chǎn)力，促進(jìn)企業(yè)創(chuàng)新

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

天陽科技與SS&C攜手，億元打造Algorithmics軟件獨(dú)家信創(chuàng)版

12-19

值得買科技榮獲卓越發(fā)展大獎(jiǎng)，創(chuàng)新驅(qū)動(dòng)消費(fèi)產(chǎn)業(yè)高質(zhì)量發(fā)展

12-19

訊飛智作斬獲獵云網(wǎng)2024“年度生成式AI創(chuàng)新”大獎(jiǎng)，AIGC未來可期

12-19

榮耀MagicOS 9.0升級(jí)全解析：新功能適配進(jìn)度與長(zhǎng)焦拍照優(yōu)化進(jìn)行時(shí)

12-19

閃極AI“拍拍鏡”來襲：智能眼鏡新體驗(yàn)，售價(jià)999元起接入大模型

12-19

閃極AI拍拍鏡震撼上市！國(guó)內(nèi)首款量產(chǎn)，售價(jià)僅999元起

12-19

蘋果中國(guó)AI大模型合作引關(guān)注，字節(jié)騰訊誰將脫穎而出？

值得一題的是，12月19日，北京智源人工智能研究院（智院研究員）發(fā)布國(guó)內(nèi)外100余個(gè)開源和商業(yè)閉源模型多份評(píng)測(cè)結(jié)果，作為今年英偉達(dá)全球第二大買家、擁有23萬張GPU的字節(jié)跳動(dòng)豆包大模型名列前茅，語言模型結(jié)果…

12-19

張一鳴私募新動(dòng)作，重心已悄然轉(zhuǎn)向大模型與AI戰(zhàn)略？

12-19

算力硬件引領(lǐng)市場(chǎng)熱潮，豆包概念股能否持續(xù)走強(qiáng)？

12-19

市場(chǎng)分化算力硬件爆發(fā)，抖音微信小店概念股活躍，后市如何演繹？

12-19

北證50深V反轉(zhuǎn)，AI硬件與微信小店成市場(chǎng)新寵？

12-19

OpenAI Canvas大升級(jí)：React渲染與文本格式化新工具來襲

12-19

OpenAI新招！ChatGPT熱線電話服務(wù)上線，老年機(jī)座機(jī)也能聊

12-19

AMD蘇姿豐領(lǐng)投，Liquid AI崛起：機(jī)器人之母帶隊(duì)，AI賽道再掀狂瀾

12-19

AI創(chuàng)業(yè)熱潮下，清北復(fù)交畢業(yè)生都偏愛在哪座城市扎根？

12-19

點(diǎn)擊查看更多 +

全站最新

嚴(yán)禁利用融券變相T+0交易，券商再行動(dòng)，市場(chǎng)融券已極度縮量

《金融產(chǎn)品網(wǎng)絡(luò)營(yíng)銷管理辦法》或發(fā)布涉及貸款、理財(cái)、支付等領(lǐng)域

TCL萬象分區(qū)技術(shù)：Mini LED電視畫質(zhì)躍升的新篇章

挪威電動(dòng)車熱銷，特斯拉陶琳：寒冷地區(qū)電動(dòng)車可完全替代燃油車

寶馬Skytop M8 Targa限量版來襲，概念車終成真！

蕪湖造心臟，驅(qū)動(dòng)國(guó)家級(jí)無人直升機(jī)救援平臺(tái)展雄風(fēng)！

熱門內(nèi)容

本欄最新

值得買科技榮獲卓越發(fā)展大獎(jiǎng)，創(chuàng)新驅(qū)動(dòng)消費(fèi)產(chǎn)業(yè)高質(zhì)量發(fā)展

訊飛智作斬獲獵云網(wǎng)2024“年度生成式AI創(chuàng)新”大獎(jiǎng)，AIGC未來可期

榮耀MagicOS 9.0升級(jí)全解析：新功能適配進(jìn)度與長(zhǎng)焦拍照優(yōu)化進(jìn)行時(shí)

閃極AI“拍拍鏡”來襲：智能眼鏡新體驗(yàn)，售價(jià)999元起接入大模型

閃極AI拍拍鏡震撼上市！國(guó)內(nèi)首款量產(chǎn)，售價(jià)僅999元起

算力硬件引領(lǐng)市場(chǎng)熱潮，豆包概念股能否持續(xù)走強(qiáng)？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

基于高性能服務(wù)器的ChatGPT模型該如何訓(xùn)練？

基于高性能服務(wù)器的ChatGPT模型該如何訓(xùn)練？