翻譯|實施案例|編輯:況魚杰|2020-08-12 15:25:47.160|閱讀 278 次
概述:Cloudera Data Warehouse(CDW)是一種托管數據倉庫,可在容器化體系結構上運行 Cloudera的強大引擎。本篇文章描述了Cloudera客戶所面臨的代表性示例,并說明了CDW如何解決這些問題。它還著眼于該解決方案中幾種Azure服務(例如Azure Kubernetes服務和ADLS Gen2)所起的關鍵作用。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
Cloudera Data Warehouse(CDW)是一種托管數據倉庫,可在容器化體系結構上運行 Cloudera的強大引擎。它是新Cloudera數據平臺或CDP的一部分,該平臺已于今年年初在Microsoft Azure上啟用。CDW服務可讓您滿足SLA,在零摩擦的情況下使用新的用例并最大程度地降低成本。在11日,CDW在Microsoft Azure上已全面上市,該服務可通過Azure市場作為CDP的一部分使用。
與客戶討論數據倉庫時,經常會出現三種情況。企業永遠無法盡快獲得所需的東西。通常會錯過SLA,尤其是隨著用戶數量和用例的增長。而且,即使不是完全強制性的命令,也存在向公共云遷移的壓力。
盡管有許多因素導致了這些情況,但是對于如何處理它只有一個答案:CDW。 這篇文章描述了Cloudera客戶所面臨的代表性示例,并說明了CDW如何解決這些問題。它還著眼于該解決方案中幾種Azure服務(例如Azure Kubernetes服務和ADLS Gen2)所起的關鍵作用。
以一家制造用于飛機的設備的公司為例。像許多企業一樣,有大量的分析師在研究精選的數據,業務線(LOB)經理專注于卓越的運營,而數據科學家則在新數據集中尋找競爭優勢。但是,也存在挑戰,如以下4個例子所示:
CDW為業務分析人員Ramesh提供了經濟高效,可擴展的報表和儀表板,因此它們的SLA不會被錯過。
CDW使數據架構師Kelly可以處理倉庫中的數據,而不會影響其他工作負載。
CDW為數據科學家Olivia提供了無限的計算資源,可以在幾分鐘之內將對象存儲中的任何數據扔掉。
CDW為運營經理Mariana提供了一個單一平臺,該平臺可以執行傳統的數據倉庫以及需要不同技術的新用例。同時保留每個數據集的單個副本并利用共享的元數據和安全性。
在下面的部分中,我們將進一步解釋CDW和Azure如何提供這些功能。
Ramesh和他的業務分析師團隊全天不間斷地發布報告。業務依靠他的團隊提供的洞察力來運行,尤其是與客戶情緒有關的洞察力,而老綠道近期旅行支出的下降,這一點就更加至關重要。因此,他們不能錯過SLA,否則業務就會向著其他方向發展。
每當沒有查詢時,CDW虛擬倉庫(VW)中的計算資源將保持暫停狀態,不會產生任何成本。Ramesh上班后的第一個查詢一到,他就會自動啟動。如果由于Ramesh的許多同事都在早上晚些時候上線而導致查詢負載稍后增加到飽和點,則VW將檢測到這一點并提供更多計算資源來處理負載,同時保持高性能——這稱為自動縮放。一旦負載下降到較低的水平,那么這些額外的計算資源就被釋放了,因此不再產生成本。最后,在Ramesh最終離開工作并且查詢全部結束的一天結束時,將自動暫停自身,再次下降為免費狀態。
CDW可以使用Azure Kubernetes服務(AKS)快速配置計算Pod,并在不再需要時釋放它們,從而提供這種按需付費的功能。這些Pod使用Standard_E16_v3計算實例大小(16 vCPU,128 GiB RAM,400 GiB本地SSD) AKS最終在后臺使用VM縮放集來啟用和控制自動縮放。
Ramesh的團隊運行查詢后,就可以通過服務中內置的三個緩存級別在很大程度上滿足其SLA:
數據緩存–首次從ADLS讀取數據時,會將其緩存在使用該數據的計算節點上。隨后需要相同數據的查詢從本地緩存(而不是ADLS)獲取數據。Hive LLAP和Impala VW均支持此緩存類型。
結果集緩存–將結果發送回客戶端后,結果集也將緩存在HiveServer2節點上的存儲中。如果再次到達完全相同的查詢(這在儀表板和BI用例中很常見),則直接從HS2緩存中提供結果。當前,只有Hive LLAP VW支持此緩存類型。
物化視圖–您可以定義物化視圖(MV)的結構和內容,Hive將從基表中選擇數據填充其中。對于后續訪問基表的查詢,如果Hive檢測到可以從MV中提供數據,則它將透明地重寫查詢以使用該查詢,從而避免了再次掃描基表,聯接數據,對其進行匯總的需求等等。目前只有Hive LLAP大眾汽車支持此功能。
憑借這種智能和性能優化水平,Ramesh和團隊可以隨著數據量和業務需求的增長而增長,而僅需支付實際工作所需的資源。
CMO要求數據架構師Kelly提供量化近期營銷活動影響的指標。倉庫具有所需的數據,但也正在滿負荷運行。凱利(Kelly)將需要使用各種查詢類型來探索數據,并且不確定需要多長時間或她需要多少CPU和內存。在這樣模糊的要求下,由于存在影響SLA約束的操作工作負載的風險,IT不允許她在數據倉庫上執行此工作。她的查詢可能會耗盡CPU資源,并從緩存中逐出所有熱數據。因此,CMO沒有度量標準來幫助理解其營銷投資的影響。
借助CDW,Kelly可以擁有自己的計算環境,該環境可以查詢倉庫數據,但與其他受SLA約束的工作負載完全隔離。CDW可以通過與存儲和計算層分開管理數據上下文(表定義,授權策略,元數據)來做到這一點。這樣,多個計算環境都可以共享同一數據上下文。 Cloudera共享數據體驗(SDX)是為此托管上下文提供的術語。
SDX的關鍵啟用功能是能夠在持久數據庫中可靠地存儲元數據和安全規則的功能。為此,使用Gen5 4 vCore,內存優化選項將Azure數據庫用于PostgreSQL。托管的Postgres服務易于集成,高度可用且管理起來很簡單。將其用作元數據和其他持久狀態的單一事實來源,CDW可以安全地并行運行您的工作負載需求的多個計算環境。
當在這種情況下需要計算資源時,CDW提供的另一種方法是將您的工作負載從本地CDH或HDP群集擴展到在公共云中運行的CDP。在這種情況下,Workload Manager工具用于分析您的內部工作負載,確定適合突發的候選工作負載(在這種情況下,臨時探索查詢會干擾SLA綁定查詢),然后將數據和元數據復制到CDP。現在可以在您的云環境中安全地運行工作負載。如果這樣做,您可能希望使用Microsoft ExpressRoute來確保良好的性能和一致的數據移動延遲。
數據科學家奧利維亞(Olivia)有時需要使用尚未在倉庫中的新數據文件來檢驗供應鏈優化的假設。但是中央IT部門從來沒有計劃過這樣的突發性工作負載,也沒有資源去做一個新的ETL項目,以將這些新數據(其價值尚未得到證實)整合到倉庫中。這導致錯過了降低供應鏈成本并降低其內部風險的機會。
如果使用CDW,Olivia將能夠簡單地啟動一個新的Hive LLAP VW,該過程只需幾分鐘,然后在數據文件上創建一個外部表定義,以便她可以開始查詢它們。使用Hive,您可以本地查詢半結構化文本文件和帶分隔符的文件(例如CSV或TSV)。有標準的開源庫可查詢JSON以及其他文件格式。而且,您始終可以為自定義格式定義自己的Serializer-Deserializer(SerDe)。即使使用這些基本文件格式,Hive仍將數據轉換為其列式內存格式,以從緩存和IO效率優化中受益。
這種快速提供對對象存儲中任意數據查詢功能的功能可帶來極大的靈活性和靈活性。您可以快速瀏覽新數據和使用新用例,以跟上業務發展的速度。但是,需要可擴展的高性能ADLS Gen2服務。Hadoop ABFS連接器提供了此關鍵集成點,將您存儲在ADLS Gen2中的企業數據與Cloudera中可用的分析功能的生態系統聯系起來。
制造LOB運營經理Mariana受其首席運營官的委托,通過避免計劃外的設備停機來提高產量。她估計,這將需要每秒存儲100萬個傳感器讀數,保留15個月的數據以適應歷史趨勢分析,對數據運行任意SQL的能力以及訪問原始數據和聚合的需求。簡而言之,她需要一個高度可擴展的實時數據倉庫,該倉庫可提供時間序列功能而又不會造成資金損失。
當前的數據倉庫團隊無法接近這些性能要求,并且他們的團隊之一使用的傳統時間序列數據庫無法處理如此長的歷史記錄或執行任意SQL。借助CDP平臺,Mariana可以在一小時內站起基礎架構來托管此類應用程序,在這種情況下,將使用具有標準本地冗余SSD存儲的Azure Compute VM。 Cloudera的時間序列產品主要依賴于Apache Kudu存儲引擎和Apache Impala進行SQL查詢??梢允褂肁pache NiFi從Azure Event Hub或Kafka或許多其他受支持的源之一中提取數據。強大的Cloudera引擎與強大的Azure基礎架構的結合意味著可以滿足Mariana的雄心勃勃的要求。
而之后當接到通過制造更可靠的飛機發動機來提高客戶滿意度的要求時,即便她不知道在工廠要進行哪些調整以提高質量。但是借助Cloudera,Mariana可以運行將時間序列應用程序中的數據與倉庫中的其他數據結合起來的查詢,以得出制造過程與客戶體驗之間的相關性(如航班延誤所示)。
如上所述,這是通過SDX啟用的,但是在這種情況下,由于不允許Mariana查看客戶數據中的個人身份信息(PII),因此存在更高的安全級別。因為CDP與Azure Active Directory集成在一起以獲取用戶的身份和組成員身份,所以它可以使用Apache Ranger強制實施復雜的基于角色或基于屬性的訪問控制,以在Mariana訪問數據時動態屏蔽所有PII數據。她現在可以安全地完成自己的工作,并通過盡自己的職責來提高客戶滿意度。
在 Cloudera,我們相信數據可以使今天的不可能,在明天成為可能。我們使人們能夠將復雜的數據轉換為清晰而可行的洞察力。Cloudera 為任何地方的任何數據從邊緣到人工智能提供企業數據云平臺服務。在開源社區不懈創新的支持下,Cloudera推動了全球最大型企業的數字化轉型歷程。
慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:CLOUDERA