隨著全球數(shù)據(jù)呈爆發(fā)式增長,基于海量數(shù)據(jù)的挖掘和分析,為用戶帶來了巨大的商業(yè)價值。源于開源平臺的Apache Hadoop,允許使用簡單的編程模型跨計算機集群分布式處理大型數(shù)據(jù)集,成為大數(shù)據(jù)時代最受歡迎的技術(shù)之一。
01性能瓶頸
HDFS分布式文件系統(tǒng)作為Hadoop的三大組件之一,是分布式計算中數(shù)據(jù)存儲管理的基礎(chǔ)。但是在HDFS傳統(tǒng)架構(gòu)下,Hadoop擴展性受到了一定限制,容易出現(xiàn)性能瓶頸等問題。
圖片來源:Hadoop官方文檔
例如,由于HDFS中每個文件、目錄和數(shù)據(jù)塊的元數(shù)據(jù)信息(大約150字節(jié))必須存儲在NameNode的內(nèi)存中,這也就意味著對于一個擁有大量文件的超大集群來說,內(nèi)存將成為限制系統(tǒng)橫向擴展的瓶頸。
同時,作為一個可擴展的文件系統(tǒng),單個集群中支持數(shù)千個節(jié)點。在單個命名空間中DataNode可以擴展的很好,但是NameNode并不能在單個命名空間進行橫向擴展。通常情況下,HDFS集群的性能瓶頸出現(xiàn)在單個NameNode上。
雖然,在Hadoop 2.x發(fā)行版中引入了聯(lián)邦HDFS功能,允許系統(tǒng)通過添加多個NameNode來實現(xiàn)擴展。但是,系統(tǒng)管理員需要維護多個NameNodes和負載均衡服務(wù),這又無形中增加了管理成本。
此外,大數(shù)據(jù)平臺建設(shè)和應(yīng)用中還亟待解決以下問題:
? 在傳統(tǒng)的Apache Hadoop集群系統(tǒng)中,計算和存儲資源緊密耦合。當存儲空間或計算資源不足時,只能同時對兩者進行擴容,不僅擴容不方便,且經(jīng)濟效率較低;
? Hadoop的數(shù)據(jù)備份方案昂貴,且難以實現(xiàn);
? 不同部門、平臺各自建大數(shù)據(jù)系統(tǒng),數(shù)據(jù)不共享,導(dǎo)致大數(shù)據(jù)計算平臺碎片化,逐漸形成大數(shù)據(jù)煙囪。
02XSKY HDFS Client
為了解決上述問題,業(yè)界一般采用對象存儲來作為Hadoop的后端存儲,解決上面HDFS的各種問題,構(gòu)建數(shù)據(jù)湖解決方案。
Hadoop社區(qū)也開發(fā)了S3A連接器,用來對接標準的S3對象存儲。但是,標準的S3A連接器的性能一般比HDFS要差很多,而且不支持追加寫,因此只能支持部分對性能不高的業(yè)務(wù),或者作為Hadoop分層存儲使用。
為此,XSKY開發(fā)了基于對象存儲XEOS的專用Hadoop HDFS高性能客戶端XSKY HDFS Client。
XSKY HDFS Client和S3A架構(gòu)對比
通過XSKY HDFS Client,Hadoop應(yīng)用可以訪問存儲在XEOS中的所有數(shù)據(jù),這就避免了傳統(tǒng)的Hadoop應(yīng)用在進行數(shù)據(jù)分析前,還要將數(shù)據(jù)由業(yè)務(wù)存儲移動到分析存儲HDFS中。
XSKY HDFS Client為Hadoop應(yīng)用提供了標準的 Hadoop 文件系統(tǒng)操作接口。在每個計算節(jié)點上,Hadoop應(yīng)用都將使用XSKY HDFS Client (JAR) 執(zhí)行 Hadoop文件系統(tǒng)的操作,XSKY HDFS Client屏蔽了Hadoop應(yīng)用與XEOS集群交互的復(fù)雜性。
相比于原生Hadoop S3A對接對象存儲的方式,XSKY HDFS Client可以直接訪問存儲集群的OSD,IO路徑更短;同時,XSKY HDFS Client具有追加寫的功能,可以匹配Hadoop文件系統(tǒng)對追加寫的需求。
XSKY內(nèi)部對在業(yè)界最廣泛應(yīng)用的Hadoop商業(yè)發(fā)行版本之一Cloudera CDH的TestDFSIO測試中顯示,部署了XSKY HDFS Client的 XEOS集群寫性能超過采用Remote HDFS系統(tǒng)的94%,讀性能超過77%(兩種測試硬件配置一樣,節(jié)點數(shù)都是8節(jié)點,其中存儲和Datanode都是3節(jié)點)。
WordCount測試中,性能瓶頸主要在CDH計算集群的CPU使用率,兩組測試環(huán)境計算集群的CPU均達到了100%。HDFS對1TB數(shù)據(jù)進行WordCount計算的時間消耗為46分22秒,而XEOS的時間消耗為47分20秒,相差不大。
HBase寫測試中,HDFS對30,000,000條數(shù)據(jù)進行寫入時間消耗為2分23秒,而XEOS的時間消耗為2分55秒,與HDFS比相差30秒左右。但是從HBase統(tǒng)計的IOPS來看,HDFS和XEOS相差不大。
HBase讀測試,HDFS對30,000,000條數(shù)據(jù)進行讀取時間消耗為47秒,而XEOS的時間消耗為46秒,幾乎沒有差別。但是從HBase統(tǒng)計的IOPS來看, XEOS明顯高于HDFS。
03客戶收益
? 計算存儲分離部署,按需擴容,大幅降低TCO;
? 更加優(yōu)化的性能,以及企業(yè)級存儲特性;
? 適用于大數(shù)據(jù)平臺的容災(zāi)備份;
? 同時支持生產(chǎn)業(yè)務(wù)、Hadoop、MPP、AI等計算業(yè)務(wù),解決數(shù)據(jù)孤島問題;
? 一套存儲系統(tǒng),承載多個異構(gòu)平臺的數(shù)據(jù)整合,加速數(shù)據(jù)流動;
? NFS、HDFS、S3三種協(xié)議互通,三種協(xié)議來源的數(shù)據(jù)都可以統(tǒng)一進行in-place分析,分析結(jié)果可以通過S3實時發(fā)布。
XSKY目前已經(jīng)實現(xiàn)塊、文件、對象、HDFS支持,為企業(yè)用戶構(gòu)建了真正統(tǒng)一的數(shù)據(jù)存儲平臺,可實現(xiàn)用戶從核心生產(chǎn)到海量數(shù)據(jù)分析的最大化數(shù)據(jù)整合,助力構(gòu)筑企業(yè)數(shù)據(jù)湖理想底座!