ITBear旗下自媒體矩陣:

火山引擎正式發(fā)布企業(yè)版ClickHouse——ByteHouse

   時(shí)間:2021-08-25 18:18:25 來(lái)源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評(píng)論無(wú)障礙通道

ClickHouse 的發(fā)展

近十年以來(lái),交互式分析領(lǐng)域百花齊放,大量解決方案隨著大數(shù)據(jù)技術(shù)升級(jí)而涌現(xiàn),但尚未有產(chǎn)品達(dá)到類似 Oracle 和 MySQL 一樣在 OLTP(Online Transaction Processing)領(lǐng)域中領(lǐng)先的地位。其中,ClickHouse 作為一款 PB 量級(jí)的交互式分析數(shù)據(jù)庫(kù),最早是由號(hào)稱“俄羅斯 Google ”的 Yandex 公司開發(fā),并很快作為世界第二大網(wǎng)絡(luò)引擎的流量分析平臺(tái) Yandex.Metrica(同類產(chǎn)品包括 Google Analytics、友盟統(tǒng)計(jì))的核心查詢引擎。

綜合來(lái)說(shuō),ClickHouse 作為交互式分析數(shù)據(jù)庫(kù),有幾大明顯優(yōu)勢(shì):

• 多:大規(guī)模并行計(jì)算框架,超高吞吐的實(shí)時(shí)寫入能力;

• 快:極致的查詢性能,尤其是在大寬表為主體的數(shù)據(jù)模型中;

• 好:無(wú)侵入式架構(gòu),輕松集成到現(xiàn)有系統(tǒng),可復(fù)用上下游數(shù)據(jù)開發(fā)工具;

• 省:充分利用硬件資源,以極低的成本分析海量數(shù)據(jù);

DB-Engine 上 ClickHouse 的排名趨勢(shì)圖

自 2016 年開源以來(lái),ClickHouse 憑借其數(shù)倍于其他頂尖交互式分析數(shù)據(jù)庫(kù)的極致性能,成為該領(lǐng)域的后起之秀,發(fā)展速度非常迅猛。截止 2021 年 8 月份,ClickHouse 已在 Github 上獲得 18.2K Star,DB-Engines 排名近一年上升 16 位,并在國(guó)內(nèi)獲得字節(jié)跳動(dòng)、快手、京東等互聯(lián)網(wǎng)企業(yè)的生產(chǎn)級(jí)使用。

ClickHouse與字節(jié)跳動(dòng)的故事

近年來(lái),字節(jié)跳動(dòng)旗下抖音、今日頭條等產(chǎn)品的成長(zhǎng)速度之快引人注目。事實(shí)上,承載著這些產(chǎn)品持續(xù)高速增長(zhǎng)的關(guān)鍵所在,是背后的中臺(tái)化技術(shù)底座。無(wú)論是在算法、AI 還是數(shù)據(jù)分析等核心技術(shù)上,字節(jié)跳動(dòng)在相關(guān)領(lǐng)域中一直保持著領(lǐng)先水平。

字節(jié)跳動(dòng):中臺(tái)化的技術(shù)底座

其中字節(jié)跳動(dòng)對(duì) ClickHouse 的選型和使用也是如此,從 2017 年最早的用戶行為分析場(chǎng)景開始,逐漸開始支持廣告業(yè)務(wù)、用戶增長(zhǎng)、A/B測(cè)試、算法模型優(yōu)化等大量?jī)?nèi)部場(chǎng)景,并演化成國(guó)內(nèi)最大規(guī)模的ClickHouse使用者。

目前字節(jié)內(nèi)部的 ClickHouse 節(jié)點(diǎn)總數(shù)超過(guò)1萬(wàn)5千個(gè),管理總數(shù)據(jù)量超過(guò)600PB,最大的集群規(guī)模在 2400 余個(gè)節(jié)點(diǎn)。字節(jié)跳動(dòng)內(nèi)部廣泛的業(yè)務(wù)增長(zhǎng)分析很多都建立在ClickHouse為基礎(chǔ)的查詢引擎上。

在從 0 到 15000 節(jié)點(diǎn)的過(guò)程中,字節(jié)跳動(dòng)的技術(shù)團(tuán)隊(duì)也遇到了很多開源 ClickHouse 的運(yùn)維痛點(diǎn)和技術(shù)挑戰(zhàn)。如多表關(guān)聯(lián)查詢、復(fù)雜嵌套子查詢等復(fù)雜場(chǎng)景下,仍有性能不足、無(wú)法支持?jǐn)?shù)據(jù)按條更新、實(shí)時(shí)數(shù)據(jù)寫入的性能有限、集群擴(kuò)展難度較高、運(yùn)維復(fù)雜度高等問題。

對(duì)此,隨著業(yè)務(wù)場(chǎng)景持續(xù)增多,字節(jié) ClickHouse 技術(shù)團(tuán)隊(duì)通過(guò)自研的方式極大地豐富了 ClickHouse 可使用的場(chǎng)景,提高運(yùn)維的人效,不僅解決了開源技術(shù)上手難和試錯(cuò)成本高的痛點(diǎn),同時(shí)已經(jīng)有足夠能力來(lái)提供商業(yè)產(chǎn)品和企業(yè)級(jí)技術(shù)支持服務(wù)。

火山引擎正式發(fā)布 ByteHouse

過(guò)去,與開源社區(qū)用戶的交流中,經(jīng)常聽到的反饋是 ClickHouse “上手容易,用好很難”,或由于沒有經(jīng)驗(yàn)而“想用不敢用”,這對(duì)于性能如此出眾的存儲(chǔ)引擎來(lái)說(shuō),不免遺憾。

現(xiàn)在,字節(jié)跳動(dòng)旗下企業(yè)級(jí)技術(shù)服務(wù)平臺(tái)火山引擎正式對(duì)外發(fā)布「ByteHouse」,為大家提供企業(yè)級(jí)技術(shù)支持服務(wù)。作為 ClickHouse企業(yè)版,ByteHouse經(jīng)過(guò)了字節(jié)跳動(dòng)內(nèi)部海量數(shù)據(jù)場(chǎng)景的打磨和極限的業(yè)務(wù)要求,更加符合企業(yè)高速增長(zhǎng)訴求,其主要亮點(diǎn)如下:

• 分布式查詢?cè)鰪?qiáng):支持星型模型等復(fù)雜的多表關(guān)聯(lián)場(chǎng)景,進(jìn)一步去除數(shù)據(jù)冗余和數(shù)據(jù)準(zhǔn)備成本;

• 支持Upsert 語(yǔ)義:既保留了ClickHouse高效的數(shù)據(jù)寫入性能、又支持 Upsert(update or insert) 寫入方式,幫助業(yè)務(wù)更簡(jiǎn)單地開發(fā)實(shí)時(shí)分析應(yīng)用;

• 實(shí)時(shí)數(shù)據(jù)引擎:支持實(shí)時(shí)數(shù)據(jù)高效寫入,支持 exactly once 語(yǔ)義,寫入性能遠(yuǎn)超原生架構(gòu);

• 數(shù)據(jù)分級(jí)存儲(chǔ):冷熱數(shù)據(jù)分級(jí)存儲(chǔ)在HDFS和本地存儲(chǔ),自動(dòng)化管理數(shù)據(jù)熱度,自動(dòng)轉(zhuǎn)存不同存儲(chǔ),有效緩解業(yè)務(wù)存儲(chǔ)空間持續(xù)增長(zhǎng)的問題;

• 企業(yè)級(jí)運(yùn)維工具:自助運(yùn)維能力,包括配置下發(fā)、指標(biāo)告警、集群健康度監(jiān)控、查詢?nèi)蝿?wù)診斷、集群負(fù)載管理等功能,極大提高了運(yùn)維人效。

作為國(guó)內(nèi) ClickHouse 技術(shù)的多年深度實(shí)踐者,ByteHouse 現(xiàn)基于自研技術(shù)能力和超大規(guī)模使用經(jīng)驗(yàn),為更多的企業(yè)大數(shù)據(jù)團(tuán)隊(duì)帶來(lái)新的選擇和支持,以應(yīng)對(duì)復(fù)雜多變的業(yè)務(wù)需求,高速增長(zhǎng)的數(shù)據(jù)場(chǎng)景。未來(lái),ByteHouse 將不斷以字節(jié)跳動(dòng)和外部最佳實(shí)踐輸出給行業(yè)用戶,幫助企業(yè)更好地構(gòu)建交互式大數(shù)據(jù)分析平臺(tái),并更廣泛的與 ClickHouse 研發(fā)者社群共享經(jīng)驗(yàn),共同推動(dòng) ClickHouse 社區(qū)的發(fā)展。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version