ITBear旗下自媒體矩陣:

如何利用 StarRocks 實時分析數(shù)據(jù)湖中的數(shù)據(jù)?

   時間:2024-09-12 15:01:25 來源:ITBEAR編輯:茹茹 發(fā)表評論無障礙通道

眾所周知,湖倉一體架構 (Lakehouse)能提供更為統(tǒng)一和高效的數(shù)據(jù)處理與分析能力。

StarRocks 當前已打通多種數(shù)據(jù)湖 組件,如 Apache Iceberg、Apache Hudi、Delta Lake、Apache Paimon  等,實現(xiàn)了對數(shù)據(jù)湖的實時查詢與分析。不僅能夠作為查詢引擎直接讀取數(shù)據(jù)湖中的數(shù)據(jù),還支持物化視圖等高級功能,進一步提升查詢性能,幫助企業(yè)“一鍵實現(xiàn)”湖倉架構。

1. StarRocks 與 ApacheIceberg 的集成

Apache Iceberg 是一個開源的表格式,用于在大數(shù)據(jù)平臺上提供高效、可擴展的數(shù)據(jù)存儲。目前,用戶可以直接在 StarRocks 中查詢存儲在  Iceberg 中的大規(guī)模數(shù)據(jù)集,無需數(shù)據(jù)遷移或轉換。

這一集成不僅簡化了數(shù)據(jù)處理流程,還顯著提升了查詢效率。StarRocks 支持 Iceberg 表的 Snapshot  查詢,能夠獲取數(shù)據(jù)的最新狀態(tài),滿足用戶對實時數(shù)據(jù)分析的需求。

應用實踐:微信 基于 StarRocks 的湖倉一體實踐

騰訊微信團隊基于 StarRocks 和 Iceberg  構建了湖倉一體架構,滿足海量數(shù)據(jù)的實時查詢需求,數(shù)據(jù)分析團隊實現(xiàn)了查詢效率和數(shù)據(jù)時效性的顯著提升,數(shù)據(jù)時效性從小時/天級提升至分鐘級,查詢效率也從分鐘級提升至秒級/分鐘級。

案例詳情:微信基于 StarRocks 的湖倉一體實踐

2. StarRocks 與 ApacheHudi的集成

Apache Hudi方面,StarRocks 提供對 Hudi 表的高效查詢能力,通過全新 Connector 框架,實現(xiàn)了對 Hudi 表的  Snapshot 查詢、Incremental 查詢和 Read Optimized 查詢的支持。特別是 StarRocks 2.4  及更高版本,通過簡化配置過程,用戶可以更便捷地查詢數(shù)據(jù)庫下所有 Hudi 表格式的數(shù)據(jù)。

3. StarRocks 與Delta Lake 集成與應用

Delta Lake 是另一種流行的數(shù)據(jù)湖格式,專注于提供 ACID 事務和可靠的批處理。StarRocks 支持查詢 Delta Lake 中的  Parquet 格式數(shù)據(jù),支持多種壓縮格式(如 SNAPPY、LZ4、ZSTD、GZIP 和 NO_COMPRESSION)。

用戶可以通過創(chuàng)建 Delta Lake Catalog 來訪問 Delta Lake 中的數(shù)據(jù)。StarRocks 支持查詢 Delta Lake  中的表。

4. StarRocks 與Paimon 的集成

Apache Paimon 是一種新一代的湖格式,支持高效實時更新和統(tǒng)一的批處理與流處理操作。StarRocks 通過 External Catalog  功能支持直接查詢存儲在 Paimon 數(shù)據(jù)湖中的數(shù)據(jù),并執(zhí)行 SQL 查詢,實現(xiàn)數(shù)據(jù)的快速檢索。StarRocks 支持多種查詢優(yōu)化策略,包括 Data  Cache 和異步物化視圖,可以顯著提升查詢性能。

StarRocks與Paimon的集成應用已經在多個生產環(huán)境中得到驗證。在測試中,StarRocks查詢Paimon數(shù)據(jù)的效率是Trino的4.3倍,開啟Data  Cache后,查詢性能更是提升了35.4%。這表明StarRocks與Paimon的集成應用可以顯著提升數(shù)據(jù)湖中的實時數(shù)據(jù)分析能力。

應用案例:

汽車之家在數(shù)據(jù)倉庫建設中,面臨實時與離線數(shù)據(jù)分別處理導致的技術棧復雜、數(shù)據(jù)新鮮度不一及查詢效率低下等痛點。離線數(shù)倉使用Hive,數(shù)據(jù)延遲較高;實時數(shù)倉依賴Flink、Kafka等技術,但在處理復雜SQL時資源消耗大,開發(fā)周期長。盡管嘗試使用Iceberg作為統(tǒng)一存儲方案,但發(fā)現(xiàn)其在流式處理上的功能不足。

StarRocks+Paimon解決方案:

汽車之家選擇Apache  Paimon作為新的數(shù)據(jù)湖解決方案,結合Flink實現(xiàn)流批一體處理。Paimon的簡潔健壯架構、增量且有序的數(shù)據(jù)讀取、部分更新等能力,滿足了流式湖倉的需求。通過Paimon存儲實時與離線數(shù)據(jù),降低了開發(fā)和維護難度,提高了數(shù)據(jù)新鮮度。同時,利用StarRocks的物化視圖和Sort  Compaction功能優(yōu)化查詢效率,減少資源消耗。

實施解決方案后,汽車之家在新用戶轉化分析、流量日志入湖及資源入湖等場景中取得了顯著成效。新用戶轉化分析的寬表時效性從天級提升到分鐘級,開發(fā)效率提升5倍以上,資源使用節(jié)省60%。流量日志清洗SLA提升1小時,查詢效率顯著提升。資源數(shù)據(jù)新鮮度提升至分鐘級,下游業(yè)務方平滑過渡,無需大量開發(fā)調整。此外,Paimon的優(yōu)化實踐如支持代理用戶、優(yōu)化寫入任務內存占用等,進一步提升了系統(tǒng)的穩(wěn)定性和性能。

使用 Paimon + StarRocks 極速批流一體湖倉分析

StarRocks+Paimon的湖倉分析方案支持多種場景,包括Trino兼容、聯(lián)邦分析、透明加速、數(shù)據(jù)建模和冷熱融合。原有Trino作業(yè)無需修改即可在StarRocks上運行;聯(lián)邦分析允許不同數(shù)據(jù)源之間的聯(lián)合查詢;透明加速通過物化視圖優(yōu)化查詢性能;數(shù)據(jù)建模支持多層嵌套物化視圖,便于數(shù)據(jù)體系構建;冷熱融合則通過TTL機制優(yōu)化存儲成本和查詢效率。JNI  Connector作為關鍵技術,實現(xiàn)了C++與Java數(shù)據(jù)源之間的高效交互。

性能測試:

在EMR環(huán)境下,通過對比測試StarRocks與Trino在TPCH  100G數(shù)據(jù)集上的性能,結果顯示StarRocks的查詢性能是Trino的15倍,驗證了StarRocks+Paimon方案的高效性。

鏡舟科技作為基于 StarRocks 開源項目的商業(yè)化公司,深入參與 StarRocks  社區(qū)推廣和技術貢獻,致力于推動湖倉一體的最佳實踐應用于各行各業(yè)。未來,鏡舟科技將積極與數(shù)據(jù)湖領域的其他優(yōu)秀廠商和開源項目開展合作,共同構建更加完善的湖倉一體生態(tài)。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  網站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉載  |  滾動資訊  |  English Version