ITBear旗下自媒體矩陣:

河南移動的MPP大數(shù)據(jù)平臺對象存儲實踐

   時間:2020-01-16 09:59:02 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

電信與媒體市場調(diào)研公司Informa Telecoms & Media的調(diào)查結(jié)果顯示,早在2013年,全球120家運營商中約有48%的運營商正在實施大數(shù)據(jù)業(yè)務(wù)。大數(shù)據(jù)業(yè)務(wù)成本平均占到運營商總IT預(yù)算的10%,并且在未來五年內(nèi)將升至23%左右。

電信運營商在運營服務(wù)中積累了大量數(shù)據(jù),既包括日志、賬單、信令等結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),也會涉及到圖片、文本、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。據(jù)不完全統(tǒng)計,一個省一天的運營商數(shù)據(jù)量可達到PB級。

而通過對海量數(shù)據(jù)資源的挖掘,可支撐運營商快速響應(yīng)需求,實現(xiàn)敏捷運營,以及推動數(shù)字化轉(zhuǎn)型。例如,利用大數(shù)據(jù)對DPI(Deep Packet Inspection,基于數(shù)據(jù)包的深度檢測)等數(shù)據(jù)進行分析,可獲取客戶的行為偏好,實現(xiàn)客戶精準營銷。

01河南移動的實踐

據(jù)媒體報道,早在2018年7月,河南移動4G用戶數(shù)量已突破4000萬,在河南運營商市場處于領(lǐng)先地位。與此同時,其家庭寬帶客戶接近900萬,建設(shè)4G基站10萬個;物聯(lián)網(wǎng)連接數(shù)接近2000萬(新聞鏈接:https://news.dahe.cn/2018/07-03/336954.html ); 2019年,河南移動全面啟動了5G建設(shè)。

為了更加精細化大數(shù)據(jù)運營,管理和監(jiān)控網(wǎng)絡(luò)流量數(shù)據(jù),河南移動部署了統(tǒng)一DPI系統(tǒng)實現(xiàn)海量日志數(shù)據(jù)處理,包括支撐集團和省層面的網(wǎng)絡(luò)運行、企業(yè)信息、市場營銷、網(wǎng)信安全、特殊通信等五大類應(yīng)用,如移動感知分析、移動上網(wǎng)日志留存、信息推送、流量軌跡查詢、IDC/ISP信安系統(tǒng)等。

統(tǒng)一DPI系統(tǒng)

在該業(yè)務(wù)的數(shù)據(jù)處理上,客戶過去采用MR+HiveSQL+HDFS+Flum傳統(tǒng)架構(gòu)進行支撐。這一解決方案導(dǎo)致:在應(yīng)用端,無法實現(xiàn)多種數(shù)據(jù)融合分析,多并發(fā)能力不足查詢效率不高;在存儲端,計算存儲緊耦合不夠彈性,出現(xiàn)存儲訪問瓶頸,無法支持海量數(shù)據(jù)的按需擴展;以及更復(fù)雜的運維,更高的建設(shè)成本,逐漸難以滿足海量日志分析的需求。

為了解決上述問題,客戶在數(shù)據(jù)共享層采用了HashData+XEOS+gdfdists新架構(gòu),為客戶提供云原生數(shù)據(jù)倉庫解決方案,相對于原Hadoop方案,可減少60%的集群硬件和70%的運維投入。

數(shù)據(jù)共享層解決方案

1、AAA解析模塊:接受Radius原始流量解析后發(fā)送至HashData平臺;

2、Web服務(wù)器:負責策略生成、策略下發(fā)、數(shù)據(jù)結(jié)果展現(xiàn);

3、HashData:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清洗、數(shù)據(jù)查詢和數(shù)據(jù)分發(fā)(數(shù)據(jù)生成與Td上報程序);

4、XEOS:對接HashData平臺,海量日志數(shù)據(jù)存儲。

在新的解決方案中,XEOS替代原先HDFS實現(xiàn)PB級數(shù)據(jù)在線管理,同時提供冷熱數(shù)據(jù)分層、索引數(shù)據(jù)多副本、日志數(shù)據(jù)采用糾刪碼(EC糾刪碼12+3,得盤率80%)等策略,保障整體方案的更優(yōu)性價比。目前,客戶已采購1.5PB存儲容量…

02現(xiàn)有的數(shù)據(jù)應(yīng)用問題

今天,企業(yè)數(shù)據(jù)呈指數(shù)級增長,基于海量數(shù)據(jù)的分析、挖掘數(shù)據(jù)價值成為運營商和企業(yè)用戶的常態(tài)化選擇。然而數(shù)據(jù)環(huán)境的諸多變化,驅(qū)動了數(shù)據(jù)應(yīng)用的新需求產(chǎn)生:

1、全量數(shù)據(jù)處理:統(tǒng)一系統(tǒng)內(nèi)處理內(nèi)外部的海量數(shù)據(jù),數(shù)據(jù)類型復(fù)雜如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù);

2、高并發(fā)響應(yīng):更多部門、角色甚至機器參與到數(shù)據(jù)訪問中,動態(tài)的支持高并發(fā)響應(yīng);

3、多維實時分析:將各維度的數(shù)據(jù)關(guān)聯(lián)進行數(shù)據(jù)分析挖掘,沒有大量時間做預(yù)處理,裸數(shù)據(jù)實時響應(yīng);

4、跨平臺訪問:數(shù)據(jù)訪問環(huán)境差異,公有云、私有云以及混合云等多種場景下,跨平臺數(shù)據(jù)靈活訪問;

5、云技術(shù)融合:大數(shù)據(jù)和云計算技術(shù)飛速發(fā)展,如何充分利用云的優(yōu)勢讓數(shù)據(jù)發(fā)揮更大價值亟待解決。

面對數(shù)據(jù)應(yīng)用的上述新需求,現(xiàn)有的解決方案面臨著以下問題:

1、共享存儲數(shù)據(jù)倉庫

? 擴展性差

? 存儲訪問瓶頸

? 無法支持海量數(shù)據(jù)

? 一體機價格昂貴

2、MPP數(shù)據(jù)倉庫

? 無法支持多種數(shù)據(jù)類型

? 大數(shù)據(jù)量性能級穩(wěn)定性下降

? 擴容數(shù)據(jù)重分布難度大過程冗長

? 無法合理規(guī)劃以及靈活利用存儲和計算資源

? 無法支持高并發(fā)

3、Hadoop及NoSQL方案

? 不完全支持SQL

? 計算存儲緊耦合不夠彈性

? 配置、調(diào)優(yōu)、管理、維護復(fù)雜

? 學(xué)習(xí)成本高、學(xué)習(xí)曲線陡峭

? 效率低下,高并發(fā)能力有限

? 查詢性能不穩(wěn)定,影響因素多

03存算分離的云原生數(shù)倉

鑒于此,HashData(酷克數(shù)據(jù))研發(fā)設(shè)計了新一代云原生數(shù)據(jù)倉庫架構(gòu)。HashData企業(yè)級云數(shù)據(jù)倉庫是一個高性能、完全托管的PB級數(shù)據(jù)倉庫服務(wù),融合MPP高效引擎、云計算的彈性以及大數(shù)據(jù)平臺綜合數(shù)據(jù)處理能力三方特性。全面兼容PostgreSQL協(xié)議以及SQL 2008語法標準,對外提供標準的JDBC和ODBC接口,無縫集成主流ETL和BI工具。

新一代云原生數(shù)據(jù)倉庫架構(gòu)具有以下特點:

? 元數(shù)據(jù)、計算和存儲三者分離;

? SQL on 對象存儲;

? 按需動態(tài)水平擴容;

? 支持跨數(shù)據(jù)中心和云平臺數(shù)據(jù)訪問;

? 毫秒級響應(yīng)海量數(shù)據(jù)交互式查詢及多維分析;

? 高可用架構(gòu)以及靈活數(shù)據(jù)副本策略;

? 無縫對接Oracle、MySQL、DB2、MongoDB等以及主流BI產(chǎn)品。

在基于云原生的計算和存儲分離數(shù)據(jù)倉庫方案構(gòu)建中,獨立擴展的計算和存儲更加靈活,同時可顯著降低成本。HashData與XSKY建立了合作伙伴關(guān)系,利用XSKY XEOS對象存儲與HashData企業(yè)級云數(shù)據(jù)倉庫形成統(tǒng)一解決方案,并具有以下優(yōu)勢:

? 計算存儲分離部署,按需擴容,大幅降低TCO;

? 更加優(yōu)化的性能,以及企業(yè)級存儲特性;

? 適用于大數(shù)據(jù)平臺的容災(zāi)備份;

? 整體方案性能更加穩(wěn)定,易交付易維護,簡化工作流程大幅縮短交付周期。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version