ITBear旗下自媒體矩陣:

補(bǔ)齊OLAP引擎短板,火山引擎ByteHouse 是如何實(shí)現(xiàn)流批一體的?

   時(shí)間:2023-07-18 17:39:42 來(lái)源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評(píng)論無(wú)障礙通道

計(jì)算機(jī)領(lǐng)域一直流傳一句話——“沒(méi)有銀彈”,這句話出自計(jì)算機(jī)科學(xué)家布魯克斯《沒(méi)有銀彈》一書(shū),意思是軟件工程是一個(gè)超級(jí)復(fù)雜系統(tǒng),沒(méi)有任何特效的方法,可以一直提高效率。

在數(shù)據(jù)庫(kù)選型當(dāng)中也是如此。一款面向?qū)崟r(shí)查詢場(chǎng)景的計(jì)算引擎,在離線場(chǎng)景的表現(xiàn)可能會(huì)稍顯遜色。

以某內(nèi)容APP對(duì)OLAP引擎選型為例。該內(nèi)容APP基于OLAP引擎構(gòu)建了支持全公司的數(shù)據(jù)平臺(tái),覆蓋業(yè)務(wù)線多、復(fù)雜度高,對(duì)數(shù)據(jù)分析的要求也非常高。在APP的直播場(chǎng)景中,主播、商家需要直播間核心實(shí)時(shí)數(shù)據(jù),在直播過(guò)程中依據(jù)數(shù)據(jù)做相關(guān)決策,比如在流量下降時(shí)投流、發(fā)福袋等。而OLAP引擎具備高性能、時(shí)效性強(qiáng)、彈性擴(kuò)容的特點(diǎn),能滿足實(shí)時(shí)查詢的訴求,成為該內(nèi)容APP對(duì)計(jì)算引擎的首選。

但在一些不需要實(shí)時(shí)數(shù)據(jù)的場(chǎng)景中,例如內(nèi)容APP日?qǐng)?bào)、周報(bào)、月報(bào)等數(shù)據(jù),往往是T+1時(shí)間產(chǎn)出,OLAP引擎就很難滿足需求,反而需要再搭配Spark、Hive、MapReduce等批處理平臺(tái)共同使用。

一方面,這樣的組合方案會(huì)導(dǎo)致數(shù)據(jù)鏈路復(fù)雜,操作成本高。為了保證OLAP引擎和其他批處理平臺(tái)的數(shù)據(jù)一致性, 研發(fā)團(tuán)隊(duì)要建立穩(wěn)定的數(shù)據(jù)同步管道,這將增加開(kāi)發(fā)成本,造成系統(tǒng)復(fù)雜度高,對(duì)日常運(yùn)維和故障排查帶來(lái)難題。另一方面,兩者都需要占用一定的計(jì)算和存儲(chǔ)資源,導(dǎo)致資源消耗較大,同時(shí)也會(huì)造成數(shù)據(jù)延遲。

近期,火山引擎云原生數(shù)據(jù)倉(cāng)庫(kù)ByteHouse上線的“離線加工”能力則解決了這一問(wèn)題。

ByteHouse 云數(shù)倉(cāng)版一直具備強(qiáng)大的實(shí)時(shí)數(shù)據(jù)消費(fèi)能力,通過(guò)設(shè)計(jì)新的實(shí)時(shí)消費(fèi)執(zhí)行流程、實(shí)現(xiàn) Exactly—once 語(yǔ)義以及對(duì) Memory buffer 的優(yōu)化,ByteHouse 具備了對(duì) Kafka 流數(shù)據(jù)的集成能力。

據(jù)介紹,ByteHouse 在云數(shù)倉(cāng)版的全新版本中支持了完整的離線加工能力,使得作為輕載數(shù)倉(cāng)的 ByteHouse能同時(shí)兼顧實(shí)時(shí)數(shù)據(jù)的查詢效率和離線加工任務(wù)的穩(wěn)定性,大大降低運(yùn)維壓力,簡(jiǎn)化數(shù)據(jù)開(kāi)發(fā)鏈路,為用戶提供更優(yōu)越的企業(yè)級(jí)數(shù)倉(cāng)體驗(yàn)。

性能、效率、成本在行業(yè)中一直被認(rèn)為是“不可能三角”,如果用戶將ByteHouse作為統(tǒng)一的數(shù)據(jù)分析平臺(tái),則可以最大程度實(shí)現(xiàn)性能、效率、成本的“三贏”。

圖片1.jpg

ByteHouse“離線加工”能力架構(gòu)圖

從性能層面來(lái)看,作為高性能的列式數(shù)據(jù)庫(kù),ByteHouse的查詢引擎和聚合能力能提升離線計(jì)算速度,幫助用戶更快進(jìn)行離線數(shù)據(jù)處理、聚合和轉(zhuǎn)換,縮短任務(wù)執(zhí)行時(shí)間,提高數(shù)據(jù)處理效率。

從效率層面來(lái)看,ByteHouse將實(shí)時(shí)查詢、交互式分析與離線數(shù)據(jù)加工的處理流程整合在同一個(gè)平臺(tái),不僅僅能保證數(shù)據(jù)的一致性和準(zhǔn)確性,避免數(shù)據(jù)在系統(tǒng)流轉(zhuǎn)中出現(xiàn)不一致的問(wèn)題,還可以簡(jiǎn)化數(shù)據(jù)處理架構(gòu),研發(fā)人員不再需要維護(hù)和管理多個(gè)工具、系統(tǒng)。另外,ByteHouse使用SQL作為查詢語(yǔ)言,研發(fā)人員可以利用熟悉的SQL語(yǔ)法進(jìn)行數(shù)據(jù)查詢、聚合和轉(zhuǎn)換操作,無(wú)需學(xué)習(xí)新的編程語(yǔ)言或框架。

從成本層面來(lái)看,ByteHouse的列式存儲(chǔ)和壓縮算法在提升查詢速度、縮短響應(yīng)時(shí)間的同時(shí),還可以減少數(shù)據(jù)存儲(chǔ)的占用空間,降低存儲(chǔ)成本。

隨著數(shù)據(jù)分析和計(jì)算的場(chǎng)景愈多,鏈路愈加復(fù)雜,企業(yè)更需要統(tǒng)一的平臺(tái)、簡(jiǎn)單的架構(gòu)、便捷的運(yùn)維,才能支撐業(yè)務(wù)快速發(fā)展。ByteHouse不僅專注于強(qiáng)化實(shí)時(shí)計(jì)算能力,還補(bǔ)齊了離線任務(wù)加工場(chǎng)景,通過(guò)結(jié)合任務(wù)編排和開(kāi)發(fā)工具,支持復(fù)雜的 ETL 處理流程,適用于企業(yè)用戶行為分析、人群圈選、風(fēng)控等更豐富的場(chǎng)景。

此次“離線加工”新能力的發(fā)布,僅僅只是ByteHouse產(chǎn)品迭代版圖上的一環(huán)。作為源于字節(jié)跳動(dòng)多年積累的云原生數(shù)據(jù)倉(cāng)庫(kù),ByteHouse不斷提升用戶體驗(yàn),幫助企業(yè)更好地構(gòu)建交互式大數(shù)據(jù)分析平臺(tái)和云原生數(shù)據(jù)倉(cāng)庫(kù)。目前,中國(guó)地震臺(tái)網(wǎng)中心、海王集團(tuán)等已與火山引擎ByteHouse達(dá)成合作,率先通過(guò)海量數(shù)據(jù)實(shí)時(shí)分析的極速體驗(yàn),輔助決策落地,加速業(yè)務(wù)洞察,實(shí)現(xiàn)自身數(shù)字化升級(jí)的進(jìn)一步加速。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version