原創|大數據產品動態|編輯:蔣永|2018-10-29 15:34:24.000|閱讀 695 次
概述: 基于hadoop的大數據分析和管理軟件Cloudera平臺參考部署架構干貨分享
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
Cloudera的軟件體系結構中包含了以下模塊:系統部署和管理,數據存儲,資源管理,處理引擎,安全,數據管理,工具庫以及訪問接口。
一些關鍵組件的角色信息:
集群服務器按照節點承擔的任務分為管理節點和工作節點。管理節點上一般部署各組件的管理角色,工作節點一般部署有各角色的存儲、容器或計算角色。根據業務類型不同,集群具體配置也有所區別:
1. 實時流處理服務集群:Hadoop實時流處理性能對節點內存和CPU有較高要求,基于Spark Streaming的流處理消息吞吐量可隨著節點數量增加而線性增長。
2. 在線分析業務集群:在線分析業務一般基于Impala等MPP SQL引擎,復雜的SQL計算對內存容量有較高要求,因此需要配置128G甚至更多的內存。
3. 云存儲業務集群:云存儲業務主要面向海量數據和文件的存儲和計算,強調單節點存儲容量和成本,因此配置相對廉價的SATA硬盤,滿足成本和容量需求
搭建小規模集群一般是為了支撐專有業務,受限于集群的存儲和處理能力,不太適合用于多業務的環境。這可以部署成一個HBase的集群;也可以是一個分析集群,包含YARN,Impala。在小規模集群中,為了最大化利用集群的存儲和處理能力,節點的復用程度往往也比較高。下圖是一個典型的小規模集群部署方式:
對于那些需要兩個以上節點來支持HA功能的,集群中分配有一個工具節點可以承載這些角色,并同時可以部署一些其他工具角色,這些工具角色本身消耗不了多少資源:
其余節點可以部署為純工作節點,包含:
一個中等規模的集群,集群的節點數一般在20到200左右,通常的數據存儲可以規劃到幾百TB,適用于一個中型企業的數據平臺,或者大型企業的業務部門數據平臺。節點的復用程度可以降低,可以按照管理節點、主節點、工具節點和工作節點來劃分。
管理節點上就安裝Cloudera Manager、Cloudera Management Service。
主節點上安裝有個CDH服務的管理節點以及HA的組件,可以如下方式部署:
工具節點可以部署以下一些角色:
工作節點的部署和小規模類似:
大規模集群的數量一般會在200以上,存儲容量可以是大幾百的TB甚至是PB級別,適用于大型企業搭建全公司的數據平臺。和中等規模的集群相比,部署的方案相差不大,主要是一些主節點可用性的增強。
HDFS JournalNode由3個增加到5個,Zookeeper Server和HBase Master也由3個增加到5個,Hive Metastore的數量有1個增加到3個。
對于一個小規模的集群,或者一個單個rack的集群,所有的節點都連接到相同的接入層交換機。接入層交換機配置為堆疊的方式,互為冗余并增加了交換機吞吐。所有的節點兩個網卡配置為主備或者負載均衡模式,分別連入兩個交換機。在這種部署模式下,接入層交換機也充當了聚合層的角色。
在多機架的部署模式下,除了接入層交換機,還需要聚合層交換機,用于連接各接入層交換機,負責跨rack的數據存取。
在機架上分配角色時,為了避免接入層交換機的故障導致集群的不可用,需要將一些高可用的角色部署到不同的接入層交換機之下(注是不同的接入層之下,而不是不同的物理rack下,很多時候,客戶會將不同物理rack下的機器接入到相同的接入層交換機下。)以下是一個80個節點的物理部署樣例。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn