牛牛影视免费观看成人,麻豆亚洲āv永久无码精品久久

要說(shuō)誰(shuí)是近幾年人工智能這條街上最靚的仔，那莫過(guò)于深度學(xué)習(xí)，特別是“大數(shù)據(jù)”、“大模型”、“大算力”不絕于耳。隨著產(chǎn)業(yè)應(yīng)用對(duì)AI模型效果的要求越來(lái)越高，數(shù)據(jù)和參數(shù)規(guī)模不斷增長(zhǎng)，分布式訓(xùn)練即使用多臺(tái)機(jī)器共同完成大數(shù)據(jù)大模型的訓(xùn)練任務(wù)，已經(jīng)成為開(kāi)發(fā)者們必須關(guān)注的技術(shù)。

各大深度學(xué)習(xí)框架也都在分布式訓(xùn)練上頻頻發(fā)力，秀肌肉顯成效。作為我國(guó)首個(gè)開(kāi)源開(kāi)放、自主研發(fā)、功能完備的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)，飛槳在分布式訓(xùn)練上保持強(qiáng)勢(shì)輸出，不僅具備業(yè)內(nèi)最早支持萬(wàn)億級(jí)稀疏參數(shù)模型訓(xùn)練的能力，近期又創(chuàng)新性的提出了4D混合并行策略，以訓(xùn)練千億級(jí)稠密參數(shù)模型。

那么，飛槳的分布式訓(xùn)練技術(shù)到底有多強(qiáng)呢?

(百度豐富的業(yè)務(wù)場(chǎng)景)

飛槳的分布式訓(xùn)練技術(shù)在對(duì)外提供之前就已經(jīng)在百度內(nèi)部業(yè)務(wù)廣泛應(yīng)用，早在2018年飛槳的純CPU參數(shù)服務(wù)器模式，就可以支持萬(wàn)億參數(shù)規(guī)模模型的訓(xùn)練，來(lái)解決搜索推薦場(chǎng)景面臨的數(shù)據(jù)量大、特征維度高且稀疏化的問(wèn)題。

隨著模型網(wǎng)絡(luò)越來(lái)越復(fù)雜，對(duì)算力要求越來(lái)越高，在數(shù)據(jù)量不變的情況下，CPU計(jì)算性能差的弱勢(shì)便暴露無(wú)遺。面對(duì)這一問(wèn)題，飛槳引入了純GPU參數(shù)服務(wù)器來(lái)提升計(jì)算性能，把100臺(tái)CPU機(jī)器才能訓(xùn)練的模型只用1臺(tái)多卡GPU設(shè)備即可完成訓(xùn)練，不僅節(jié)約了成本，還保障了集群的穩(wěn)定性和擴(kuò)展性。

此次技術(shù)升級(jí)之后，飛槳“越戰(zhàn)越勇”?？紤]到在純GPU的參數(shù)服務(wù)器下，當(dāng)模型網(wǎng)絡(luò)層比較復(fù)雜時(shí)，GPU 利用率很難被打滿，飛槳框架2.0版又創(chuàng)新性地推出了業(yè)內(nèi)首個(gè)通用異構(gòu)參數(shù)服務(wù)器功能，可以同時(shí)使用不同的硬件進(jìn)行混合異構(gòu)訓(xùn)練，兼容了多款CPU、AI專用芯片(如百度昆侖XPU)、GPU(如V100、P40、K40)，讓用戶可以在硬件異構(gòu)集群中部署分布式訓(xùn)練任務(wù)，實(shí)現(xiàn)對(duì)不同算力芯片高效利用，為用戶提供更高吞吐、更低資源消耗的訓(xùn)練能力。

(飛槳全景圖)

飛槳分布式訓(xùn)練不僅支持參數(shù)服務(wù)器模式訓(xùn)練萬(wàn)億級(jí)稀疏參數(shù)模型，對(duì)于NLP 和 CV 這類擁有復(fù)雜網(wǎng)絡(luò)、稠密參數(shù)特點(diǎn)的模型訓(xùn)練，也同樣得心應(yīng)手。其優(yōu)勢(shì)在百度“語(yǔ)義理解技術(shù)與平臺(tái)文心ERNIE”上大有體現(xiàn)，文心ERNIE采用了分布式訓(xùn)練中的集合通信模式，通過(guò)較少節(jié)點(diǎn)間的通信輪數(shù)完成全局節(jié)點(diǎn)的模型參數(shù)傳輸，大大提升通信效率，讓同步并行訓(xùn)練的多GPU擴(kuò)展能力得到極大突破。當(dāng)前飛槳集合通信模式已經(jīng)可以支持文心ERNIE 2300億參數(shù)規(guī)模的訓(xùn)練，其提出的Sharding-DP策略更是助力文心ERNIE的多項(xiàng)任務(wù)分?jǐn)?shù)刷新GLUE榜單。

(飛槳助力文心ERNIE刷新GLUE榜單)

文心ERNIE作為百度在各大榜單刷分霸榜，搶占高地的“利器”，其在性能上的優(yōu)勢(shì)得益于飛槳的給力支持。文心ERNIE的千億級(jí)模型計(jì)算復(fù)雜，訓(xùn)練需占用T級(jí)顯存資源，想用更少的機(jī)器高效訓(xùn)練，必須采取一系列優(yōu)化措施。飛槳對(duì)此創(chuàng)新性地提出了4D混合并行策略，進(jìn)一步優(yōu)化訓(xùn)練性能和顯存占比，再次走到了技術(shù)的前沿。

4D混合并行策略能夠結(jié)合多種并行策略的優(yōu)點(diǎn)，將分布式訓(xùn)練技術(shù)與業(yè)務(wù)緊密結(jié)合。飛槳研發(fā)人員正是通過(guò)模型并行策略、分組參數(shù)切片組合、流水線并行策略和數(shù)據(jù)并行策略的多層疊加，發(fā)揮合力作用，誕生了業(yè)內(nèi)第一個(gè)4D混合并行策略。通過(guò)測(cè)試驗(yàn)證，如此創(chuàng)新性提出的4D混合并行策略的訓(xùn)練速度的確高于3D混合并行策略，效果也十分明顯。

自飛槳設(shè)計(jì)之初就開(kāi)始潛心研究分布式訓(xùn)練技術(shù)以應(yīng)對(duì)大規(guī)模參數(shù)模型的訓(xùn)練任務(wù)。如今飛槳已經(jīng)開(kāi)始研究下一代分布式技術(shù)，來(lái)同時(shí)兼容超大規(guī)模稠密參數(shù)和稀疏參數(shù)模型的訓(xùn)練。

隨著產(chǎn)業(yè)智能化基礎(chǔ)技術(shù)底座飛槳輸出應(yīng)用到各行各業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景中,在城市、工業(yè)、能源、通信等領(lǐng)域發(fā)揮了重要價(jià)值。相信百度還將在技術(shù)上不斷創(chuàng)新進(jìn)步，探索分布式訓(xùn)練技術(shù)等的邊界，擴(kuò)展AI賦能的領(lǐng)域，為智能化時(shí)代的發(fā)展做出貢獻(xiàn)。

百度飛槳分布式訓(xùn)練業(yè)內(nèi)首創(chuàng)4D混合并行策略 可訓(xùn)千億級(jí)AI模型

百度飛槳分布式訓(xùn)練業(yè)內(nèi)首創(chuàng)4D混合并行策略可訓(xùn)千億級(jí)AI模型