ITBear旗下自媒體矩陣:

開源搜索引擎國產化替代,Transwarp Scope助力企業(yè)打造自主可控搜索平臺

   時間:2022-12-13 11:20:46 來源:互聯網編輯:茹茹 發(fā)表評論無障礙通道

開源搜索引擎國產化替代勢在必行

科技自立自強是時代發(fā)展的迫切需要和必然選擇。二十大報告強調,“集聚力量進行原創(chuàng)性引領科技攻關,堅決打贏關鍵核心技術攻堅戰(zhàn)”。從中興等一系列高新技企業(yè)被制裁,到今年俄烏沖突發(fā)生后,多家科技公司宣布暫停在俄羅斯的所有業(yè)務,包括芯片、軟件、云服務等斷供事件,都在警示我們要擺脫被科技制裁風險的唯一出路就是要自主研發(fā),實現真正的自主可控。

1、開源協(xié)議變更帶來商業(yè)風險

Elasticsearch是一款開源搜索引擎,憑借著先發(fā)優(yōu)勢和早期的積累,被用于多種檢索類業(yè)務場景,并占據了一定的市場。2021年初, Elastic公司決定將這款開源軟件的 Apache License 2.0 變更為雙授權許可,即Server Side Public License (SSPL) 和 Elastic License。其核心條款是“如果將程序的功能或修改后的版本作為服務提供給第三方,那么必須免費公開提供服務源代碼”。這意味著不法分子可以獲得其源代碼并研究其漏洞,給企業(yè)用戶帶來巨大的安全風險。

2、開源軟件存在“被制裁”風險

Apache 軟件基金會和GitHub官網都有公開說明,產品和技術受到美國的出口法律和法規(guī)限制。盡管此類軟件的使用是免費的,但它的許可協(xié)議仍然存在諸多限制,包括禁止受制裁的國家使用原本對公眾免費開放的代碼。受美國出口管制的俄羅斯在近期俄烏事件中將這方面風險徹底暴露。

3、安全工具出口和漏洞分享禁令政策陸續(xù)出臺

2021年美國商務部和安全局發(fā)布最新控制措施,禁止美國公司向中國和俄羅斯等“有問題”的國家出口和轉售網絡安全產品。

今年6月份,美國商務部和安全局又發(fā)布了一項針對網絡安全領域的出口管制規(guī)定,未經審批禁止向中國分享安全漏洞。簡單的說,就是美國實體與中國政府相關的組織和個人合作時,如果發(fā)現潛在安全漏洞和信息,不能直接公布,要先經過美國商務部審核。這意味著如果繼續(xù)使用國外軟件,那安全問題將掌握在別人手里。

Elasticsearch數據泄露事件頻發(fā),安全能力不足

1、Elasticsearch數據泄露事件頻發(fā)

在過去幾年內,Elasticsearch 數據泄露事件頻發(fā),甚至一個月被曝6次數據泄露。

去年,受美國出口管制的巴林,暴露的Elasticsearch集群中近200萬條信息被泄露,包含有關人員的敏感信息。

而作為美國出口管制重點對象的俄羅斯,近幾年發(fā)生多起Elasticsearch數據泄露事件。

* 2019年,2000萬條個人信息和稅務記錄在網上曝光,任何擁有網絡瀏覽器的人都可以訪問;

* 2021年底,Elasticsearch服務器再次發(fā)生數據泄露,超過8.7億條記錄或147GB個人信息數據在網上曝光;

* 2022年6月,俄羅斯金融領域也發(fā)生了一起駭人的數據泄露事件,130GB的數據集包含俄羅斯人的付款,發(fā)票和其他財務敏感信息,甚至包括政府方面的日志數據;

在國內,今年某漫畫閱讀平臺也遭遇數據泄露,黑客從不安全的Elasticsearch數據庫中竊取了2300萬用戶帳戶敏感信息。

此外,根據Group-IB報告顯示,2021年網絡上暴露的 Elasticsearch 實例超過10萬個,約占2021年暴露數據庫總數的30%。

2、數據保護能力不足

Elasticsearch 開源版本是不具備數據保護功能的,看似免費,但不安全。用戶必須付費獲得Gold+許可才能獲得相關的安全保護功能,且不同的安全功能對應不同的收費標準。

3、數據有丟失風險

為了滿足數據入庫性能要求,Elasticsearch在數據層采用了簡單的主從最終一致性模型。當主副本出現故障時,從副本和主副本不能保證數據的強一致性,從副本的數據有可能不是最新的。以此為基礎恢復數據,很有可能導致部分數據丟失。

星環(huán)科技自主研發(fā)的國產搜索引擎Transwarp Scope

Transwarp Scope是星環(huán)科技自主研發(fā)的企業(yè)級分布式搜索引擎,提供PB級海量數據的交互式多維檢索分析服務,支持百萬級高并發(fā)和毫秒級低延時檢索業(yè)務,覆蓋模糊匹配,精確查詢,多維檢索等各類檢索類場景,滿足數據檢索多樣化需求。

* 海量日志存儲與檢索 Scope在數據存儲做了多層優(yōu)化,輕松滿足海量檢索數據的存儲,支持大規(guī)模數據的入庫,而且架構穩(wěn)定,數據提供一致性和多副本容災。此外,底層的搜索模塊通過分區(qū),索引排序等各類優(yōu)化手段,滿足大體量數據的快速精確檢索,實現毫秒級檢索和讀寫互不影響,非常適合電信、安全、能源等領域的檢索需求。

* 一站式檢索平臺Scope支持結構化/半結構化/非結構化小對象數據的分級存儲與毫秒級檢索響應,提供完備的分區(qū)優(yōu)化機制和高并發(fā)檢索能力。一站化服務使得業(yè)務無需通過不同數據庫產品的組合來實現復雜檢索場景,一套產品滿足多類需求。高并發(fā)非結構化數據靈活檢索等業(yè)務均可通過Scope滿足。

1、國產自研搜索引擎,自主可控

Transwarp Scope通過了工信部源代碼掃描測試,并于2019年上榜由信息技術應用創(chuàng)新工作委員會編制的國產軟硬件技術圖譜。

2、國產軟硬件適配

Scope已完成與主流信創(chuàng)生態(tài)廠商的適配互認工作,支持適配長城飛騰、華為泰山、龍芯等服務器架構,同時滿足麒麟,UOS等操作系統(tǒng),滿足信創(chuàng)要求和國產化替換需求。

3、兼容Elasticsearch接口,多生態(tài)兼容,實現低成本平滑遷移

Transwarp Scope兼容常用Elasticsearch的接口,可實現Elasticsearch業(yè)務的平滑遷移。星環(huán)科技提供多種數據遷移方案,用戶可根據實際情況靈活選擇。經過大量項目的實踐和經驗,星環(huán)科技建立了成熟標準的Elasticsearch平滑遷移方法論,通過調研評估、方案測試和上線保障“三步”策略,全程保障數據與業(yè)務的平滑遷移。

除了兼容以上Elasticsearch接口,Scope還兼容PostgreSQL協(xié)議以及Spark等大數據產品的接入。同時,Scope還提供完備的SQL語法支持,滿足傳統(tǒng)數據庫遷移到Scope的需求,通過星環(huán)科技SQL編譯器QUARK實現大數據基礎平臺TDH內部的完整數據流轉方案。

ROI、擴展性、穩(wěn)定性、安全性、數據讀寫/恢復/一致性等全面超越開源搜索引擎

1、硬件和運維成本

Elasticsearch單節(jié)點支持的數據量最多到20TB左右,在項目實踐中客戶通常在每臺服務器上部署多個Elasticsearch實例,而如此多的實例將會帶來不穩(wěn)定問題,觸發(fā)節(jié)點失聯,運維成本高。反之,如果每臺服務器配置較少容量的磁盤,那么用戶將付出非常高的硬件成本。而當節(jié)點數超過100時,同樣會有穩(wěn)定性問題。

這兩類方案,運維成本和硬件成本變成了魚和熊掌不可兼得,讓用戶陷入兩難的境地。

星環(huán)科技Transwarp Scope對內存進行創(chuàng)新優(yōu)化,提高單集群單節(jié)點容量上限,單實例可突破至百TB的數據存儲,是Elasticsearch的5倍以上,大大降低用戶硬件成本。

在提高單實例存儲容量,降低集群規(guī)模的同時,Scope通過多進程架構,充分利用集群cpu/內存資源,讀寫壓力分流,滿足更高的并發(fā)需求,提高集群穩(wěn)定性的同時降低運維成本。

2、集群擴展性

Elasticsearch在集群擴展上存在瓶頸,其采用的P2P架構和排隊模型處理一些狀態(tài)同步和元數據改變等操作時,效率比較低。在項目實踐中,當節(jié)點(或實例)規(guī)模超過100個時,會遇到穩(wěn)定性問題,特別是多種任務并發(fā)的情景下,集群壓力大,容易觸發(fā)節(jié)點接連失聯的問題。

星環(huán)科技Transwarp Scope采用多進程架構,充分利用集群cpu/內存資源,讀寫壓力分流,滿足更高的并發(fā)需求以及提升穩(wěn)定性,單集群在200以上節(jié)點規(guī)模下穩(wěn)定運行,同時保障性能無衰減。

3、全方位數據安全保障

Transwarp Scope內置配套的安全授權、用戶權限控制等相關安全功能,可以有效保障系統(tǒng)數據和訪問上的安全。

在用戶權限認證上,基于SASL提供plain與gssapi兩種認證方式,對應傳統(tǒng)的用戶名密碼認證方式和基于Kerberos的登錄驗證方式。其中kerberos可依賴于TDH平臺的安全服務Guardian,同時提供用戶組概念,便于通過平臺實現統(tǒng)一管理與操作。

在數據權限上,基于角色的訪問控制(RBAC) 機制,使用戶能夠通過將權限分配給角色并將角色分配給用戶或組來授權用戶,支持Index level Security &Database level Security。

在數據加密上,Scope支持基于SSL/TLS兩類協(xié)議進行數據加密,確保數據傳輸過程的安全。

4、數據讀寫性能

Elasticsearch在數據讀寫性能方面存在不足,如壓縮率不足,數據膨脹率高,讀寫策略優(yōu)化不足等都大大降低了數據讀寫的效率。數據讀寫性能受限,直接影響查詢操作的并發(fā)度和數據入倉的效率。

星環(huán)科技Transwarp Scope對讀寫線程資源的管理更嚴格、更精細,使讀寫性能更優(yōu),數據批量寫入速度相對Elasticsearch提升40%,讀寫分離的特性大幅提升查詢的穩(wěn)定性。

5、數據恢復性能

Elasticsearch缺乏“增量數據”的概念,當單點發(fā)生故障進行數據恢復時,采用全量數據拷貝方式恢復數據,工作量大,往往需要小時級的時間才能恢復服務,嚴重影響服務的正常進行。星環(huán)科技Transwarp Scope具有很強的容災和數據恢復能力。Scope基于Raft協(xié)議保證數據的一致性,同時提供多副本支持,重啟恢復時間在TB級數據量下控制在分鐘級,不到Elasticsearch的1/10,大幅降低了服務不可用時間。

此外,Scope支持跨數據中心的多活部署,使得重要業(yè)務在多數據中心交互和流轉,還支持主備集群的實時數據同步,滿足主備集群的failover和switchover。

6、數據一致性

Elasticsearch主本和副本之間同步采用P2P架構和排隊模型實現主從最終一致性。當主副本出現故障時,從副本和主副本不能保證數據的強一致性,很有可能導致部分數據丟失。

Transwarp Scope基于自主研發(fā)的分布式數據庫管理系統(tǒng)TDDMS,采用shared-nothing架構,通過多副本機制實現數據服務高可用,使用raft協(xié)議保證副本之間的數據一致性,保障數據不丟失。此外,TDDMS支持彈性擴縮容、自動故障恢復、權限控制、多租戶與冷熱數據分層存儲等功能。

7、售后服務

Elasticsearch是開源產品,用戶需自己探索和解決問題,無法獲取有效的服務保障。用戶需要購買企業(yè)版才能獲得相應的服務,且在國內沒有原廠技術研發(fā)人員,很難保障SLA。Transwarp Scope的產品提供方星環(huán)科技是國內廠商,具有非常強大的研發(fā)、技術支持與服務能力,提供強大的原廠服務保障能力,保障用戶售后無憂。

星環(huán)科技Transwarp Scope助力某政府單位平滑替換Elasticsearch

1、客戶挑戰(zhàn)

某政府單位原先使用開源Elasticsearch,隨著內部系統(tǒng)數據量的高速增長,總數據量超幾十PB,單張表達百億條級別,在不斷擴容下節(jié)點數達Elasticsearch上限,穩(wěn)定性經常出現問題,同時當集群出現問題時,Elasticsearch重啟需要小時級別,集群恢復速度慢。在性能問題方面,讀寫資源無法隔離,拖累查詢性能,系統(tǒng)設計為讀寫兩套集群。

2、解決方案

基于星環(huán)科技大數據基礎平臺TDH構建大規(guī)模數據綜合搜索平臺,Slipstream做實時數據引擎,清洗分析并入庫到Hyperbase與Scope的綜合搜索庫中,提供基于幾十PB數據量的快速查詢和搜索能力,集群規(guī)模達200個節(jié)點。

3、項目成果

融合人、地、物、事、組織與視頻/圖片等因素,通過星環(huán)TDH構建一站式搜索平臺,實現了PB級數據統(tǒng)一存儲、檢索滿足海量數據毫秒級響應,高并發(fā)、快速統(tǒng)計、字段精確與模糊查詢等復雜組合場景,指定條件查詢1s內返回并支持上千并發(fā),并通過單節(jié)點存儲容量比開源高5倍的優(yōu)勢,降低了客戶硬件投資成本。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  網站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉載  |  滾動資訊  |  English Version