轉帖|大數據產品動態|編輯:蔣永|2018-11-05 11:00:09.000|閱讀 332 次
概述:Cloudera Data Warehouse又名Cloudera 數據倉庫版本,實現傳統數據庫向大數據的漸進式轉型!
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
數據倉庫系統長期以來一直是企業 IT 架構的重要組成部分。隨著開源技術的不斷發展以及云端部署方式的不斷深入,傳統數據倉庫的局限性日益凸顯,難以適應新技術帶來的市場變革,如何面向大數據技術進行數據倉庫的優化、轉型是企業 IT 管理者面臨的重要挑戰。處于不同階段的企業如何應用大數據技術?如何面向大數據技術進行數據倉庫轉型?如何對現有數據倉庫進行優化?如何在 Hadoop 中進行性能優化?這些已成為困擾 IT 管理者的主要問題。
1.存儲成本較高,在線保留全量、海量數據的目標難以實現;
2.元數據定義僵化,難以靈活集成多種數據源、支持即席查詢;
3.集群管理復雜、計算資源有限,缺乏統一的管理接口及水平擴展能力;
4.隨著數據規模、用戶規模的不斷增加,實時分析(例如:欺詐行為識別)SLA無法滿足;
5.常用的數據分析挖掘工具處理全量數據時間過長。
數據倉庫的訪問不再只限于IT部門,所有部門的用戶都會要求自助訪問全真的數據,甚至希望無需 IT 部門的協助便可以自行進行數據準備,當然,這個過程中的高訪問延遲也是不被接受的。
企業必須能夠有效地存儲、加工和分析數據,包括結構化數據、半結構化數據和非結構數據。
流式數據為理解和調整當前的業務決策創造了新的可能,但前提是我們要具備對流式數據進行實時處理的能力。實時計算需要新的技術架構,不僅要將數據流與現有數據體系進行對接,還要能夠對其進行快速的分析。
起始階段:處于這一階段的大多數企業已采購 MPP 硬件搭建數據倉庫。為了保證業務延續性,對于起始階段的企業建議以傳統技術為主,以大數據技術為輔。例如:ETL 處理仍然放在 MPP 平臺,只是利用 HDFS 做歷史數據歸檔,利用 Spark Streaming 做小批量數據的實時處理。
發展階段:這一階段的企業用戶已經掌握了大數據的核心技能,發展階段建議以大數據技術為主,以傳統技術為輔。例如:將 ETL 處理全部轉移到 Hadoop 平臺,而只將處理邏輯簡單的固定報表部分放在 MPP 上。
成熟階段:建議使用 Hadoop 平臺作為整體架構,將大數據技術應用到極致。
企業可以選擇從一開始就將整個數據倉庫規劃在 Hadoop 之上。傳統數據倉庫架構的主要創始人 Ralph Kimball 博士在 2015 年發表專題演講時證實了 Hadoop 是可以完全取代 MPP 來建立數據倉庫的。在全球范圍內,有很多企業已經將他們的數據倉庫完全建立在 Hadoop 之上。
但是從技術的角度,有一些數據倉庫技術或工具與 Hadoop 相比已非常成熟,可能已有數十年的歷史,對于這些長期應用的數據庫技術,Hadoop 并不具備其中所有的功能或性能。但即便如此,很多用戶仍然選擇把他們的數據倉庫構建在 Hadoop 架構之上,這是為了能夠實現更加優越的可擴展性、更高的性價比,以及更好的靈活性。在實際應用中,即使是規模只有 5 個節點的小集群,企業使用 Hadoop 與其他技術選項相比,也能夠取得更好的產出、帶來更多的業務價值與競爭力。
針對當前企業級數據倉庫(EDW)面臨的 ETL 批量作業運行緩慢、BI 報表不能按時生成、業務用戶提交的查詢遲遲顯示不了結果等壓力,結合當前數倉發展的趨勢,以及企業的云化需求,Cloudera 分析型數據庫版本進行了全面升級,于 2018 年 8 月正式推出了Cloudera Data Warehouse又名Cloudera 數據倉庫版本。
Cloudera 分析型數據庫已經在全球最大的 900 多家組織機構里運行,是一款經歷過實戰打磨的產品。升級后的 Cloudera 數據倉庫版本提供了企業級混合云解決方案,包含了混合計算、混合存儲、混合控制三大關鍵因素,專為實惠經濟、強大可擴展的自助服務分析而構建。這款產品覆蓋了數據倉庫的整個生命周期,包括數據接入、存儲、管理、查詢、運行狀況檢查等等。
ETL 卸載:將 ETL 任務從 EDW 遷移到 Cloudera 大數據平臺,極大的釋放 EDW 處理能力?;?Hadoop 大規模分布式的處理能力,ETL 任務將以更快的速度運行,并為包括 EDW 在內的下游系統提供服務,使得之前錯過的 SLA 成為歷史。
自助 BI 和探索性分析:全面開放數據,所有部門的用戶在其安全策略范圍內都能自助訪問全真數據。借助 Read on Schema 的靈活性和支持高并發的查詢能力,開發人員和分析人員能夠實現自助化數據探索,擺脫對 IT 部門的依賴,能最快的速度解決新問題。
EDW 優化:通過 Cloudera 大數據平臺釋放 EDW 處理能力,您可以將 EDW 系統用于更加復雜的報表生成和熱數據處理,在相當長的一段時間內都無需增加 EDW 存儲或計算資源。EDW 和 Cloudera 大數據平臺的混搭結構可以降低數據存儲成本,提高數據處理和分析能力,充分發揮兩套系統各自的技術優勢。
前所未有的數據規模和靈活性:Cloudera 提供單一、可擴展的平臺,可以處理不同來源、不同類型的全量數據,以推動新的業務洞察。該版本專為 Read on Schema 功能而設計,可以快速訪問貼源的全真數據,甚至支持實時更新。
高性能和高并發支持:Cloudera 的平臺提供高性能的 SQL 查詢工具,支持大數據量高并發訪問,因此所有部門的用戶都可以對數據進行探索性分析。而且,通過與第三方 BI 工具集成,可以沿用業務用戶的既有技能。
內置安全管控和數據治理模塊:開放的數據永遠不會以犧牲安全為代價,因此敏感數據的安全至關重要。 Cloudera 是唯一一個通過 PCI 安全認證的 Hadoop 平臺,內置安全管控和數據治理模塊。無論用戶采取何種方式訪問數據,只要利用 Cloudera 安全技術對用戶預設置權限,或者對數據預設置監管策略,您都可以繼續數據探索之旅,而不用擔心數據泄密或越權訪問。
采用開源技術,可在任何環境中移植:無論是本地部署,云端還是混合部署都完全適用,避免了技術鎖定的問題。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: