原創|大數據新聞|編輯:鄭恭琳|2020-11-23 15:06:23.173|閱讀 373 次
概述:眾所周知,不管是對業務分析還是數據架構,甚至商業決策,數據倉庫(Data Warehouse,DW)都是極其重要的一環。那么到底什么是數據倉庫,它與數據庫、數據湖有著怎么樣的關聯?本文為你揭曉。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
數據倉庫是信息(對其進行分析可做出更明智的決策)的中央存儲庫。通常,數據定期從事務系統、關系數據庫和其他來源流入數據倉庫。業務分析師、數據工程師、數據科學家和決策者通過商業智能(BI)工具、SQL 客戶端和其他分析應用程序訪問數據。
數據和分析已然成為各大企業保持競爭力所不可或缺的部分。企業用戶依靠報告、控制面板和分析工具從其數據中獲得洞察力、監控企業績效以及更明智地決策。數據倉庫通過高效地存儲數據以便最大限度地減少數據輸入和輸出(I/O),并快速地同時向成千上萬的用戶提供查詢結果,為這些報告、控制面板和分析工具 由數據倉庫提供支持。
數據倉庫的架構包含多個層。頂層是通過報告、分析和數據挖掘工具呈現結果的前端客戶端。中間層包括用于訪問和分析數據的分析引擎。架構的底層是加載和存儲數據的數據庫服務器。數據使用兩種不同類型的方式存儲:1)經常訪問的數據存儲在最快的存儲裝置中(例如,SSD 驅動器),2)不經常訪問的數據存儲在便宜的對象存儲區中,數據倉庫將自動確保經常訪問的數據被移進“快速”存儲以便優化查詢速度。
數據倉庫接收的數據源是不同的,要做到有效集成,需要抽取、轉換、加載三個步驟,也就是ETL(Extract-Transform-Load)。
數據倉庫的優勢包括:
通常,企業使用數據庫、數據湖和數據倉庫的組合來存儲和分析數據。
數據倉庫是專門為數據分析設計的,涉及讀取大量數據以了解數據之間的關系和趨勢。數據庫用于捕獲和存儲數據,例如記錄事務的詳細信息。
與數據倉庫不同,數據湖是所有數據(包括結構化、半結構化和非結構化數據)的中央存儲庫。數據倉庫要求數據使用表格形式進行整理,Schema 通過它發揮作用。需要采用表格形式以便使用 SQL 來查詢數據。但是,并非所有應用程序都要求數據為表格形式。有些應用程序,例如大數據分析、完整文本搜索和機器學習,即使是對于“半結構化”或完全非結構化的數據,也能夠進行訪問。
數據倉庫與數據湖的對比
特性 |
數據倉庫 |
數據湖 |
數據 |
來自事務系統、運營數據庫和業務線應用程序的關系數據 |
所有數據,包括結構化、半結構化和非結構化 |
Schema |
通常在數據倉庫實施之前設計,但是也可以在分析時編寫(寫入型 Schema 或讀取型 Schema) |
寫入在分析時(讀取型 Schema) |
性價比 |
使用本地存儲獲得最快的查詢結果 |
更快地獲得查詢結果,存儲成本較低,計算和存儲分開 |
數據質量 |
可作為重要事實依據的高度監管數據 |
任何可以或無法進行監管的數據(例如原始數據) |
用戶 |
業務分析師、數據科學家和數據開發人員 |
業務分析師(使用監管數據)、數據科學家、數據開發人員、數據工程師和數據架構師 |
分析 |
批處理報告、BI 和可視化 |
機器學習、探索性分析、數據發現、流處理、運營分析、大數據和特征分析 |
數據倉庫與數據庫的對比
特性 |
數據倉庫 |
事務數據庫 |
適合的工作負載 |
分析、報告、大數據 |
事務處理 |
數據源 |
從多個來源收集和標準化的數據 |
從單個來源(例如事務系統)捕獲的數據 |
數據捕獲 |
批量寫入操作通常按照預定的批處理計劃執行 |
針對連續寫入操作進行了優化,因為新數據能夠最大程度地提高事務吞吐量 |
數據標準化 |
非標準化 Schema,例如星型 Schema 或雪花型 Schema |
高度標準化的靜態 Schema |
數據存儲 |
使用列式存儲進行了優化,可實現輕松訪問和高速查詢性能 |
針對在單行型物理塊中執行高吞吐量寫入操作進行了優化 |
數據訪問 |
為最小化 I/O 并最大化數據吞吐量進行了優化 |
大量小型讀取操作 |
數據集市是一種數據倉庫,用于滿足特定團隊或業務部門(例如財務、營銷或銷售)的需求。它更小、更集中,并且可能包含最適合其用戶社區的數據匯總。數據集市也可以是數據倉庫的一部分。
數據倉庫與數據集市的對比
特性 |
數據倉庫 |
數據集市 |
范圍 |
集中的多個整合主題領域 |
分散的特定主題領域 |
用戶 |
組織級 |
單個社區或部門 |
數據源 |
多個來源 |
單個或多個來源,或數據倉庫中已經收集的部分數據 |
大小 |
較大,可達數百 GB 到數 PB |
較小,一般不超過數十 GB |
設計 |
自上而下 |
自下而上 |
數據詳細信息 |
完整且詳細的數據 |
可能包含匯總數據 |
國內最常用的是一款基于Hadoop的開源數據倉庫,名為Hive,它可以對存儲在HDFS的文件數據進行查詢、分析。
Hive對外可以提供HiveQL,這是類似于SQL語言的一種查詢語言。在查詢時可以將HiveQL語句轉換為MapReduce任務,在Hadoop層進行執行。
Hive的最大優勢在于免費,那其他知名的商業數據倉庫有那些呢?比如Oracle,DB2,Teradata。這里就不多加贅述,感興趣的朋友可以,或在文章下方留言共同交流。
跨行業數據挖掘流程
基于企業的業務目標,進行數據理解、數據準備、數據建模,最后進行評價和部署,真正實現數據驅動業務決策。更多詳情,請。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn