10月26日,字節(jié)跳動(dòng)宣布開源BitSail數(shù)據(jù)集成引擎。BitSail意為“數(shù)據(jù)航行”,可支持二十余種異構(gòu)數(shù)據(jù)源間的數(shù)據(jù)同步,提供離線、實(shí)時(shí)、全量、增量場(chǎng)景下的全域數(shù)據(jù)集成解決方案,從而打通困擾企業(yè)數(shù)字化轉(zhuǎn)型的“數(shù)據(jù)孤島”,幫助企業(yè)用戶更有效地發(fā)揮數(shù)據(jù)資產(chǎn)價(jià)值。
BitSail開源地址:https://github.com/bytedance/bitsail
據(jù)悉,BitSail起源于2018年。當(dāng)時(shí)字節(jié)跳動(dòng)的業(yè)務(wù)場(chǎng)景日益復(fù)雜,數(shù)據(jù)源越來越多,數(shù)據(jù)量更是呈爆發(fā)式增長(zhǎng)。為了支撐公司業(yè)務(wù)快速發(fā)展,字節(jié)跳動(dòng)數(shù)據(jù)平臺(tái)團(tuán)隊(duì)開始自研數(shù)據(jù)集成引擎。
新引擎最初基于Apache Flink實(shí)現(xiàn),歷經(jīng)多年持續(xù)改進(jìn)和創(chuàng)新,現(xiàn)已具備批式集成、流式集成和增量集成三類同步模式,并支持分布式水平擴(kuò)展和流批一體架構(gòu),在各種數(shù)據(jù)量和各種場(chǎng)景下,一個(gè)框架即可解決數(shù)據(jù)集成需求。此外,BitSail采用插件式架構(gòu),支持運(yùn)行時(shí)解耦,從而具備極強(qiáng)的靈活性,企業(yè)可以很方便地接入新的數(shù)據(jù)源。
目前,BitSail不僅服務(wù)于抖音、今日頭條等字節(jié)跳動(dòng)內(nèi)部業(yè)務(wù),也服務(wù)了火山引擎多家企業(yè)客戶,其穩(wěn)定性、數(shù)據(jù)傳輸質(zhì)量和運(yùn)維成本等方面經(jīng)過“千錘百煉”,已經(jīng)具備較高的產(chǎn)品成熟度。
數(shù)據(jù)顯示,BitSail在字節(jié)跳動(dòng)內(nèi)部每天的任務(wù)量超過20萬,傳輸?shù)臄?shù)據(jù)行數(shù)超過百萬億行,其中單批任務(wù)達(dá)到千億行、單流任務(wù)達(dá)到千萬QPS,支持10分鐘級(jí)延遲SLA。通過在火山引擎的云原生環(huán)境和客戶專有云環(huán)境等不同場(chǎng)景的打磨,在確保數(shù)據(jù)傳輸安全性的同時(shí),BitSail的功能細(xì)節(jié)和性能得到進(jìn)一步優(yōu)化,可以滿足企業(yè)絕大部分使用需求。
自2015年至今,字節(jié)跳動(dòng)已開源了50多個(gè)項(xiàng)目,早期大多為工程師個(gè)人興趣驅(qū)動(dòng)。今年5月,字節(jié)跳動(dòng)宣布成立開源委員會(huì),為技術(shù)開源引入公司級(jí)的策略、規(guī)范與流程機(jī)制。BitSail項(xiàng)目負(fù)責(zé)人表示,做好開源的“北極星指標(biāo)”,在于真實(shí)落地,幫助開發(fā)者在生產(chǎn)環(huán)境或?qū)嶋H業(yè)務(wù)中創(chuàng)造價(jià)值。BitSail會(huì)持續(xù)夯實(shí)基礎(chǔ)能力,并結(jié)合內(nèi)外部業(yè)務(wù)實(shí)踐輸出更多創(chuàng)新的特性,幫助企業(yè)用戶走好數(shù)字化“第一步”。(作者:傅詠)