ITBear旗下自媒體矩陣:

基于遷移學(xué)習(xí)的基礎(chǔ)設(shè)施成本優(yōu)化框架,火山引擎數(shù)智平臺與北京大學(xué)聯(lián)合論文被KDD收錄

   時間:2023-08-15 20:41:29 來源:互聯(lián)網(wǎng)編輯:汪淼 發(fā)表評論無障礙通道

近期,第29屆國際知識發(fā)現(xiàn)與數(shù)據(jù)挖掘大會(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,以下簡稱KDD)在美國加州長灘舉辦。由火山引擎數(shù)智平臺,北京大學(xué)計(jì)算機(jī)學(xué)院和蒙特利爾學(xué)習(xí)算法研究所等單位合作的論文 《Rover: An online Spark SQL tuning service via generalized transfer learning 》(以下簡稱Rover)成功被大會收錄。Rover由北京大學(xué)的沈彧和火山引擎數(shù)智平臺的任鑫宇楊擔(dān)任共同第一作者,北京大學(xué)的崔斌教授擔(dān)任通訊作者。

圖片1.png

圖:論文題目和作者信息

KDD會議始于1989年,是數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、影響最大的頂級學(xué)術(shù)年會。KDD廣泛的交叉學(xué)科性和應(yīng)用性吸引了來自統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、萬維網(wǎng)、生物信息學(xué)、多媒體、自然語言處理、人機(jī)交互、社會網(wǎng)絡(luò)計(jì)算、高性能計(jì)算及大數(shù)據(jù)挖掘等眾多領(lǐng)域的研究者,為來自學(xué)術(shù)界、企業(yè)界和政府部門的相關(guān)人員提供了一個學(xué)術(shù)交流和成果展示的理想場所。

Apache Spark作為主流的分布式計(jì)算框架,在工業(yè)界得到了廣泛的應(yīng)用,字節(jié)跳動內(nèi)部龐大的例行計(jì)算任務(wù)每天消費(fèi)數(shù)百萬core CPU及數(shù)十PB RAM規(guī)模的計(jì)算資源。每個Spark任務(wù)通過200余個相互關(guān)聯(lián)的配置參數(shù)啟動,但是,由于平臺默認(rèn)配置缺乏彈性,任務(wù)環(huán)境多樣,終端用戶經(jīng)驗(yàn)不足等問題,相當(dāng)數(shù)量的計(jì)算資源常因不合理的配置而被浪費(fèi)。傳統(tǒng)上,有經(jīng)驗(yàn)的大數(shù)據(jù)工程師可以依據(jù)每個任務(wù)的運(yùn)行情況,對其配置進(jìn)行人工分析和調(diào)整。然而,這種人工調(diào)優(yōu)方式在面臨在高維參數(shù)組合時往往有天花板,并伴有運(yùn)維迭代成本高昂等問題,使得其難以被規(guī)?;?/p>

為了解決此問題,火山引擎的工程師和北京大學(xué)的研究者一起設(shè)計(jì)了一種結(jié)合機(jī)器學(xué)習(xí)方法與人類專家知識的基礎(chǔ)設(shè)施成本優(yōu)化框架(如圖1所示),該框架以貝葉斯優(yōu)化算法為基礎(chǔ),使用高斯過程作為代理模型學(xué)習(xí)配置參數(shù)集與任務(wù)成本/運(yùn)行時長的關(guān)系,并通過可信賴的遷移學(xué)習(xí)機(jī)制,從人類專家知識編碼中獲得安全性和可解釋性(如圖1中Expert-assisted Optimization部分所示),并從相似的歷史任務(wù)中獲得額外的收斂加速特性(如圖1中Controlled History Transfer部分所示)。

圖片2.png

圖:Rover優(yōu)化器的整體架構(gòu)

該方案能自動化識別和調(diào)整例行計(jì)算任務(wù)的配置參數(shù)集,在不破壞任務(wù)服務(wù)等級的前提下壓縮資源浪費(fèi),有效節(jié)省運(yùn)行成本。經(jīng)驗(yàn)證,Rover在公開任務(wù)集及字節(jié)跳動內(nèi)部的實(shí)際部署中,對比當(dāng)前市面領(lǐng)先的解決方案,在極限收益,收斂速度和安全性方面均有進(jìn)一步提升。

圖片3.png

圖:Rover對比4家市面上領(lǐng)先解決方案在內(nèi)存降低率上的Benchmark

Rover是基于火山引擎DataTester在字節(jié)跳動內(nèi)部應(yīng)用的自動調(diào)參系統(tǒng)優(yōu)化器內(nèi)核、增加遷移學(xué)習(xí)機(jī)制演化而來,并通過自動調(diào)參平臺的配套服務(wù)來實(shí)施和運(yùn)行的,目前該項(xiàng)研究已經(jīng)在字節(jié)跳動上萬個Spark數(shù)據(jù)開發(fā)任務(wù)上得到應(yīng)用,已幫助公司節(jié)約700萬元/年的資源成本。未來,這項(xiàng)技術(shù)將在字節(jié)跳動內(nèi)部的大數(shù)據(jù)計(jì)算基礎(chǔ)設(shè)施上大規(guī)模部署,預(yù)計(jì)每年將會節(jié)約近十億元,還將通過火山引擎數(shù)智平臺為外部企業(yè)提供通用優(yōu)化器服務(wù),可應(yīng)用于基礎(chǔ)設(shè)施成本優(yōu)化,線上算法超參數(shù)優(yōu)化等多種場景。

據(jù)了解,火山引擎數(shù)智平臺(VeDI)是新一代企業(yè)數(shù)據(jù)智能服務(wù)平臺,旗下的A/B測試產(chǎn)品DataTester經(jīng)歷了字節(jié)跳動的10年打磨,目前服務(wù)于字節(jié)跳動內(nèi)部500余個業(yè)務(wù)線,也服務(wù)了包括美的、得到、凱叔講故事等在內(nèi)的上百家外部企業(yè),為企業(yè)業(yè)務(wù)的用戶增長、轉(zhuǎn)化、產(chǎn)品迭代、運(yùn)營活動等各個環(huán)節(jié)提供科學(xué)的決策依據(jù),將成熟的“數(shù)據(jù)驅(qū)動增長”經(jīng)驗(yàn)賦能給各行業(yè)。

附錄論文地址:https://dl.acm.org/doi/10.1145/3580305.3599953

(作者:韓圣瀚)

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version