原創|行業資訊|編輯:陳俊吉|2016-07-26 09:33:31.000|閱讀 436 次
概述: 作為企業級大數據平臺,各廠商在集成開源技術的同時,也會在其基礎之上發展各種針對性的技術,滿足企業各方面的需求。下面我們就簡要給大家介紹IBM在BigInsights大數據平臺中,針對企業的備份恢復、多租戶等需求所進行的一系列擴展。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
作為企業級大數據平臺,各廠商在集成開源技術的同時,也會在其基礎之上發展各種針對性的技術,滿足企業各方面的需求。下面我們就簡要給大家介紹IBM在大數據平臺中,針對企業的備份恢復、多租戶等需求所進行的一系列擴展。
說到文件系統的擴展,肯定很對人會有這樣的疑問:“什么?Hadoop的基礎之一就是HDFS,企業級大數據平臺會把這個基礎也改了嗎?”。自然HDFS作為Hadoop中的基礎模塊,其重要性不言自明。然而作為開源的組件,在企業級應用中很難達到企業及應用的要求,例如數據備份和數據加密,直到Hadoop2.6出現之后,HDFS中才開始正式加入數據加密模塊并且還在不斷完善中。其實,現行各種不同的文件系統都具有各自的特色,適用于不同的企業應用場景,如ClusterFS就是Mac系統中使用的文件系統,具有良好的數據壓縮特性。
從上表可看出,除了IBM,其他業界主流的大數據廠商也在企業級大數據產品中使用了擴展自HDFS的文件系統,如MapR擴展文件系統可提供全讀寫操作等。IBM在中,在HDFS基礎之上集成了來自于GPFS的各項成熟技術,使得大數據平臺能滿足更多企業級需求,其主要特點舉例如下:
1. Hadoop兼容:
擴展文件系統由于實現了HDFS文件系統的全部接口,對于Hadoop生態圈中的所有其他組件可以實現完全兼容,這意味著不管是Hive還是HBASE等,所有對HDFS有依賴的組件都可以無縫運行在BigInsights擴展文件系統之上。
2. 全POSIX文件接口:
POSIX(PortableOperating System Interface)是Linux/UNIX廣泛使用的文件系統接口,擴展文件系統在Hadoop之上完全實現了POSIX接口,可以比HDFS實現更多、更便捷的功能,如下面例子所示。
實現跨文件系統的文件拷貝,不用選擇麻煩的參數,提高了操作便捷程度:
移動文件時,可以使用相對路徑,縮短了命令的長度,更加簡潔方便了:
還可以使用系統工具,使得處理文件更方便了:
3. 數據備份:
很多企業客戶,很重視數據的備份和恢復需求,而HDFS默認的備份方式是通過dstcp將文件備份到另外一個HDFS中。這意味著很多企業客戶中現有的各種備份策略、備份設備沒有辦法發揮作用,在成本、管理各方面都帶來很大的挑戰。而擴展之后的文件系統,可支持各種傳統的備份方式,包括把數據備份到磁帶設備等:
Hadoop 2.X之后的版本中,Yarn的使用為Hadoop的資源管理、任務調度能力帶來飛速提升。然而開源社區中自帶的幾種調度方式FIFO、Fair(公平調度)、Capacity(資源能力調度)有較大局限使用場景有限,如都不支持基于時間控制的調度策略,FIFO和Capacity不支持任務搶占等等。
中擴展的調度器在這方面也是進行了有效的擴展。
我們來假設這樣一個應用場景:
某企業經過巨大的人力和物力的投入,搭建了一套大數據平臺,并希望同一個平臺可以同時承載多個部門的服務,實現多工作負載并可以根據需要靈活調整資源配置(即多租戶需求)。對平臺提出的要求是:在正常工作日時間段,平臺優先保證業務部門的在線數據分析任務,而在非工作日時間段,例如周末、節假日等,可以全力支持后臺的批處理任務,以保證在指定時間窗口內完成批量任務;然而在有特殊業務要求時,如針對審計進行數據核查等,還需要動態調整批任務的資源占用參數,優先完成數據核查任務。
這樣的場景使用開源HDFS中的默認調度器是很難實現的,原因是HDFS不支持動態調整資源調度策略,任何資源調度策略的更改都必須后臺修改參數然后重啟,這會帶來業務中斷并且無法通過自動調整的方式完成。而BigInsights擴展調度器可以很好的支持這樣的應用場景,能滿足多用戶、混合負載時資源調度的動態調整。
本文中我們簡單對BigInsights企業級管理模塊的功能進行簡要介紹,如果您想了解針對企業級應用場景BigInsights還做了哪些細致的擴展,請訪問下面鏈接:
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn