近期,第39屆IEEE數(shù)據(jù)工程國際會議(以下簡稱ICDE )在美國加利福尼亞召開,由字節(jié)跳動數(shù)據(jù)平臺和華東師范大學(xué)合作提交的論文聚焦數(shù)據(jù)庫領(lǐng)域,提出 WaLSM架構(gòu)設(shè)計、優(yōu)化和性能提升的創(chuàng)新技術(shù)方案,成功被大會收錄。
ICDE是全球數(shù)據(jù)庫領(lǐng)域的三大會議之一,重點面向數(shù)據(jù)工程和數(shù)據(jù)密集型系統(tǒng)研究人員, 致力于解決設(shè)計、構(gòu)建、管理和評估高級數(shù)據(jù)密集型系統(tǒng)和應(yīng)用程序方面的研究問題,也是研究人員、從業(yè)者、開發(fā)人員和用戶探索前沿思想并交流技術(shù)、工具和經(jīng)驗的領(lǐng)先論壇。
據(jù)介紹,本次 ICDE 吸引了大約700人參與,共接收256篇論文,其中14篇為數(shù)據(jù)庫系統(tǒng)相關(guān)研究。作為數(shù)據(jù)庫系統(tǒng)的研究成果之一,字節(jié)跳動數(shù)據(jù)平臺投遞的論文《Workload-Aware Log-Structured Merge Key-Value Store for NVM-SSD Hybrid Storage 》,重新設(shè)計 WaLSM,針對真實負載具備強訪問傾斜性的特點,結(jié)合 DRAM-NVM-SSD 存儲系統(tǒng)優(yōu)勢,提出自適應(yīng)的 LSM-tree 調(diào)優(yōu)方案,具備極強的技術(shù)創(chuàng)新性,因而被ICDE收錄。
字節(jié)跳動專家團隊在ICDE 2023展區(qū)
該項成果的創(chuàng)新性在于,WaLSM 提出了一種幾乎無額外開銷的數(shù)據(jù)分區(qū)方式,對硬盤上的數(shù)據(jù)進行分區(qū),降低 Merge 策略調(diào)整粒度,增加了針對硬盤上負載捕捉訪問模式的能力。以分區(qū)為單位,WaLSM 在真實負載下基于強化學(xué)習(xí)算法,支持自適應(yīng)地調(diào)整各個分區(qū)使用的 Merge 策略,以更好實現(xiàn)寫放大與查詢收益之間的平衡。
值得一提的是,此次論文中的成果未來將通過ByteHouse對外開放。ByteHouse是火山引擎數(shù)智平臺旗下的一款云原生數(shù)據(jù)倉庫,支撐實時數(shù)據(jù)分析、海量數(shù)據(jù)離線分析,為用戶提供極速體驗,而WaLSM 的自適應(yīng)調(diào)整算法可以幫助 ByteHouse 根據(jù)真實負載中的數(shù)據(jù)熱點找到全局較優(yōu)的 Merge 策略,降低 IO 開銷,最終提升MergeTree 存儲引擎的整體吞吐量。
據(jù)介紹,字節(jié)跳動在2017年就開始大規(guī)模啟用ClickHouse,并擁有著國內(nèi)規(guī)模最大的ClickHouse集群。面向ToB市場推出的ByteHouse則是字節(jié)跳動在大量經(jīng)驗實踐上,對ClickHouse深度優(yōu)化、自研改造的成果。
從架構(gòu)上來看,ByteHouse采用了自研的高可用引擎,支持數(shù)據(jù)實時更新、刪除,新增了自研的查詢優(yōu)化器,并且在集群的運維和多表關(guān)聯(lián)的場景都做了相應(yīng)的增強,保證用戶在復(fù)雜查詢的場景下具備更高的查詢效能。
目前,海王集團、中國地震臺網(wǎng)中心等行業(yè)的客戶都已與火山引擎ByteHouse達成合作,通過海量數(shù)據(jù)實時分析的極速服務(wù),輔助決策落地,加速業(yè)務(wù)洞察,更好更快地實現(xiàn)數(shù)智化升級。