原創|大數據新聞|編輯:鄭恭琳|2020-06-23 14:47:00.167|閱讀 767 次
概述:大數據基礎平臺是大數據的根基所在,大數據的上層應用都需要大數據基礎平臺提供數據存儲和運算能力,本文中的三家工業客戶都部署實施了該基礎平臺。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
慧都工業大數據分析平臺,為您提供從數據采集、數據準備、數據建模、可視化分析的端到端解決方案。
從整體架構可以看出,“大數據基礎平臺部分”采取的策略準則是盡量減少對原有系統的修改,通過基于模塊化的交付方式提供基于大數據的分布式存儲能力、分布式計算能力和智能建模能力。
大數據基礎平臺:提供前端工業數據的批量及實時處理能力,分布式存儲及計算能力,大數據基礎平臺數據管理能力。數據對象模型、工業對象模型的定義及實例的存儲。
大數據基礎平臺是大數據的根基所在,大數據的上層應用都需要大數據基礎平臺提供數據存儲和運算能力,本文中的三家工業客戶都部署實施了該基礎平臺。
1. 大數據基礎平臺的主要組件和架構如下圖所示:
Flume
1) Flume支持多種接入資源數據的類型以及接出數據類型,可以高效率的將多個數據源的數據發送至下游系統。
2) 當收集數據的速度超過將寫入數據的時候,Flume會在數據生產者和數據收容器間做出調整,保證其能夠在兩者之間提供平穩的數據。.
3) Flume的管道是基于事務,保證了數據在傳送和接收時的一致性。
4) 支持多路徑流量,多管道接入流量,多管道接出流量,上下文路由等。
Kafka
1) 分布式,可劃分,可靠性強的日志服務。
2) 以時間復雜度為O(1)的方式提供消息持久化能力。
3) 高吞吐率,即使在非常廉價的商用機器上也能做到單機支持每秒100K條以上消息的傳輸。
4) 支持Kafka Server間的消息分區及分布式消費,同時保證每個Partition內的消息順序傳輸。
5) 同時支持離線數據處理和實時數據處理。
6) 支持在線水平擴展。
Oozie
1) Oozie是管理Hadoop作業的工作流調度系統
2) Oozie的工作流是一系列的操作圖
3) Oozie協調作業是通過時間(頻率)以及有效數據觸發當前的Oozie工作流程
4) Oozie是針對Hadoop開發的開源工作流引擎,專門針對大規模復雜工作流程和數據管道設計
5) Oozie圍繞兩個核心:工作流和協調器,前者定義任務的拓撲和執行邏輯,后者負責工作流的依賴和觸發。
Zookeeper
1) 為了允許在分布式系統中對共享資源進行有序的訪問,提供分布式互斥功能。
2) 與互斥同時出現的是同步訪問共享資源的需求。無論是實現一個生產者-消費者隊列,還是實現一個障礙,Zookeeper 都提供一個簡單的接口來實現該操作。
3) Zookeeper可用于處理分布式應用中經常遇到的一些數據管理問題,如統一命名服務、狀態同步服務、集群管理、分布式應用配置項的管理等。
4) 分布式系統可能必須處理節點停機的問題,Zookeeper 通過領導者選舉對此提供現成的支持。
Hive
1) Hive本身不支持數據存儲和運算,完全依賴HDFS和MapReduce、Spark、Tez中的一種。
2) 數據模型和關系數據庫類似,為結構化的表;列的數量有限。
3) 同時支持行存儲與列存儲,但數據處理邏輯是基于行的模式。
4) 有限支持Update以及Delete操作(部分表類型支持,但計算時延高開銷大)。
5) 不能保證處理的低遲延問題,適用于離線的批量數據計算。
6) 與Spark、Hbase和Impala等組件有良好的交互。
7) Hive的版本更新或更改計算引擎不會影響到當前的語法,只會添加語句,語法以及API接口,或者優化內部算法。
Spark
1) RDD,彈性分布式數據集,是一種編程抽象,代表可以跨機器進行分割的只讀對象集合。RDD可以從一個繼承結構(lineage)重建,提供了完善容錯機制。同時,RDD支持并行操作,可以效率的讀寫HDFS或S3等分布式存儲。
2) 由于RDD可以被緩存,因而避免了復雜運算中多次與HDFS交換數據流,同時避免在HDFS存儲讀取臨時數據,簡化了數據流。因此,Spark對迭代應用特別有效。大多數機器學習和最優化算法都是迭代的,使得Spark對數據科學來說是個非常有效的工具。
3) Spark支持多種語言,目前版本(2.2.0)可以在Shell中使用Python,Java以及Scala語言交互。
2. 平臺的價值
慧都大數據基礎平臺實現了一個分布式文件系統,該文件系統有高容錯性的特點,并且設計用來部署在低廉的硬件上;而且它提供高吞吐量來訪問應用程序的數據,適合有超大數據集的應用程序。平臺支持以流的形式訪問文件系統中的數據。
慧都大數據基礎平臺在數據準備(Data Preparation)方面上具備天然的優勢。平臺的分布式架構,將大數據處理引擎盡可能的靠近存儲,對例如像數據準備這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。平臺實現了將單個任務打碎,并將碎片任務發送到多個節點上,之后再以單個數據集的形式加載到數據倉庫里。
關于慧都大數據分析平臺
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn